생성 모델에서 diffusion model은 여러 denoising step 때문에 GAN보다 샘플링 시간이 여전히 느림
논문에서 제안하는 diffusion model의 forward pass는 GAN generator보다 5-20배 더 길다. ⇒ DDIM sampling 과정을 하나의 스텝으로 줄일 수 있지만, 이 방법도 기존의 GAN보다는 좋지 않은 성능 (sampling speed gap 개선 필요)
diffusion model은 explicit latent rerpresentation을 학습하지 않아서 DDIM은 이미지를 implicit latent space로 인코딩하는데, 이 latent representation이 다른 GAN, Glow, VAEs 모델과 비교했을 때 semantically 의미가 있을지는 불확실함
제안하는 classifier guidance 기술은 라벨링된 데이터셋으로 제한됨 → 라벨링되지 않은 데이터셋에도 적용 가능하도록 개선 필요