generative adversarial network (GAN) → $f$-divergence를 최소화하기 위한 적대적 학습 사용
MOTIVATION
기존 생성모델의 한계
likelihood-based model 한계
일반화된 probability model을 구축하는데 특화된 구조를 사용하거나 학습을 위해 surrogate losses 사용
GAN 한계
불안정한 적대적 학습 과정, GAN은 평가나 서로 다른 GAN 모델을 비교하는데 적합하지 않음
챌린지
데이터 분산이 저차원 manifold에 있는 경우 score가 주변 공간에서 정의되어있지 않아서 score matching는 일관성 있는 score estimator를 제공하지 못함
대부분의 리얼월드 데이터셋에서 이러한 현상을 보임
데이터 밀도가 적은 지역에서 학습 데이터가 희소성이 있으면, 점수 추정의 정확성을 방해하고 Langevin dynamics 샘플링의 mixing을 느리게 함
⇒ 해결: 다양한 레벨의 gaussian noise로 데이터를 교란시키고 해당하는 점수를 같이 추정
⇒ NCSN(Noise Conditional Score Networks) 학습 후 annealed Langevin dynamics로 샘플링
DESIGN
score matching으로 추정된 data distribution의 gradient를 사용하는 Langevin dynamics으로 샘플 생성하는 새로운 생성 모델 제안
→ 다양한 규모에서 랜덤 가우시안 노이즈를 추가하면 low dimensional manifold로 데이터 분산이 collapse되지 않음
→ 로그 데이터 밀도(=입력 데이터 포인트에서 로그 밀도 함수의 기울기)의 Stein score를 추정하고 샘플링
score matching으로 학습된 신경망 사용
데이터에서 벡터 필드 학습
Langevin dynamics (annealed version)
Langevin dynamics : 랜덤 초기 샘플을 추정된 벡터 필드에 따라 밀도가 높은 지역으로 점차 이동시킴
샘플링에서 사용
simulated annealing에서 영감을 받음 → simulated annealing: 금속 가열 후 서서히 냉각시켜서 금속을 강하게 만드는 과정에 비유한 것으로, 풀림 흉내는 처음에 높은 온도(무작위 결정 내릴 가능성 높음)에서 시작하여 서서히 온도를 낮아지며(무작위 결정 내릴 가능성 낮음) 결과적으로 단단해지는 메커니즘이다. 상태를 현재 상태보다 나쁜 이웃과 바꾸어 local maximum에서 벗어나는 알고리즘
샘플링 과정이 data manifold에 가까워질수록 점진적으로 noise level을 감소시키는 gradient 사용
학습 시 샘플링이나 적대적 방법 필요 없음
높은 노이즈 레벨인 점수를 사용하고 원본 데이터 분산과 구분이 어려울만큼 충분히 작아질 때까지 노이즈 레벨을 anneal down 함