Scalable Diffusion Models with Transformers 논문은 2023년 ICCV에 발표되었으며, 본 글 작성일 기준 515회 인용되었습니다.
=> Classifier-free guidance의 샘플링 기술은 DiT에도 적용함
=> DiT의 경우, ADM과 같은 pixel space diffusion model보다 훨씬 적은 Gflops 사용 & 우수한 성능 달성
=> Diffusion model은 noisy image, noise timestep, class label, 자연어 등 처리하므로, 본 연구에서는 ViT block 디자인을 변형하여 transformer block 구현
=> 본 연구에서는 U-Net의 inductive bias가 diffusion model의 성능에 결정적이지 않으며, transformer 설계로 대체할 수 있음을 보임