상세 컨텐츠

본문 제목

[PAPER REVIEW] Generative Modeling by Estimating Gradients of the Data Distribution

ANALYSIS/Paper Review

by koharin 2023. 8. 1. 23:42

본문

728x90
반응형

BACKGROUND

생성 모델 활용

  • 고해상도 이미지 생성
  • 현실적인 말하기와 음악 일부 합성
  • semi-supervised learning 성능 향상
  • 적대적 예제나 다른 이상 데이터 탐지
  • imitation learning
  • 강화학습에서 기대하는 상태 탐색

생성 모델의 주류

  • likelihood-based 방식 → log-likelihood를 학습 대상으로 사용
  • generative adversarial network (GAN) → $f$-divergence를 최소화하기 위한 적대적 학습 사용

MOTIVATION

기존 생성모델의 한계

  • likelihood-based model 한계
    • 일반화된 probability model을 구축하는데 특화된 구조를 사용하거나 학습을 위해 surrogate losses 사용
  • GAN 한계
    • 불안정한 적대적 학습 과정, GAN은 평가나 서로 다른 GAN 모델을 비교하는데 적합하지 않음

 

챌린지

  • 데이터 분산이 저차원 manifold에 있는 경우 score가 주변 공간에서 정의되어있지 않아서 score matching는 일관성 있는 score estimator를 제공하지 못함
    • 대부분의 리얼월드 데이터셋에서 이러한 현상을 보임
  • 데이터 밀도가 적은 지역에서 학습 데이터가 희소성이 있으면, 점수 추정의 정확성을 방해하고 Langevin dynamics 샘플링의 mixing을 느리게 함

해결: 다양한 레벨의 gaussian noise로 데이터를 교란시키고 해당하는 점수를 같이 추정

⇒ NCSN(Noise Conditional Score Networks) 학습 후 annealed Langevin dynamics로 샘플링


DESIGN

score matching으로 추정된 data distribution의 gradient를 사용하는 Langevin dynamics으로 샘플 생성하는 새로운 생성 모델 제안

→ 다양한 규모에서 랜덤 가우시안 노이즈를 추가하면 low dimensional manifold로 데이터 분산이 collapse되지 않음

→ 로그 데이터 밀도(=입력 데이터 포인트에서 로그 밀도 함수의 기울기)의 Stein score를 추정하고 샘플링

  1. score matching으로 학습된 신경망 사용
    • 데이터에서 벡터 필드 학습
  2. Langevin dynamics (annealed version)
    • Langevin dynamics : 랜덤 초기 샘플을 추정된 벡터 필드에 따라 밀도가 높은 지역으로 점차 이동시킴
    • 샘플링에서 사용
    • simulated annealing에서 영감을 받음 → simulated annealing: 금속 가열 후 서서히 냉각시켜서 금속을 강하게 만드는 과정에 비유한 것으로, 풀림 흉내는 처음에 높은 온도(무작위 결정 내릴 가능성 높음)에서 시작하여 서서히 온도를 낮아지며(무작위 결정 내릴 가능성 낮음) 결과적으로 단단해지는 메커니즘이다. 상태를 현재 상태보다 나쁜 이웃과 바꾸어 local maximum에서 벗어나는 알고리즘
    • 샘플링 과정이 data manifold에 가까워질수록 점진적으로 noise level을 감소시키는 gradient 사용
    • 학습 시 샘플링이나 적대적 방법 필요 없음
    • 높은 노이즈 레벨인 점수를 사용하고 원본 데이터 분산과 구분이 어려울만큼 충분히 작아질 때까지 노이즈 레벨을 anneal down 함

EVALUATION

  • MNIST, CelebA, CIFAR-10 데이터셋 대상으로 GAN과 비교
    • unconditional 생성모델은 CIFAR-10에서 Inception score가 8.87이라는 새로운 점수 달성하고 FID score 25.32 달성
    • 고해상도 이미지 생성: likelihood-based model과 GAN과 비교적 유사한 샘플 생성함

  • image inpainting 실험
    • 모델 학습이 효과적임을 입증

CONCLUSION

CONTRIBUTION

  • 제안하는 연구는 모든 score network의 파라미터화에 적용 가능
    • 특별한 모델 구조 필요 x, MCMC 샘플링이나 적대적 학습 등 없이 최적화 가능
  • 서로 다른 모델과 동일한 데이터셋에서 정량적으로 비교 가능
    • MNIST, CelebA, CIFAR-10 데이터셋에서 제안하는 방법의 효과를 입증
    • 특히, unconditional 생성모델은 CIFAR-10에서 Inception score가 8.87이라는 새로운 점수 달성
    • image inpainting 실험으로 제안하는 모델의 학습이 효과적임을 입증

CONCLUSION

  • score-based 생성 모델 제안
    • score matching 이용하여 데이터 밀도의 gradient 추정한 후, langevin dynamic 이용하여 샘플 생성하는 방식
728x90
반응형

관련글 더보기