상세 컨텐츠

본문 제목

[Paper Review] Countering Malicious DeepFakes: Survey, Battleground, and Horizon

ANALYSIS/Paper Review

by koharin 2023. 4. 9. 10:30

본문

728x90
반응형

3. Generation of DeepFakes

딥페이크 생성에는 생성 방법론과 데이터셋의 두 가지를 중점으로 살펴본다. 특히, 얼굴 생김새와 관련한 딥페이크 생성 방법론에는 전체 얼굴 합성, 속성 조작, 특징 바꾸기, 그리고 표정 바꾸기의 4가지가 있다. 데이터셋은 생성 방법론에서 사용할 주요 실제 이미지/영상 데이터셋과 생성 방법론에서 생성된 가짜 이미지/영상 데이터셋을 다룬다.

 

3.1 Overview of Deep Image Generation and Manipulation

딥페이크 생성 방법론에는 스타일 이동, 이미지 인페이팅, 고해상도, 렌더링, 통합, 비식별화 등 다양하지만, 논문에서는 얼굴 생김새와 관련한 딥페이크 방법론을 다룬다.

 

3.2 Entire Face Synthesis

1) 정의 1

전체 얼굴 합성은 신경망 φ(·) 사용하여 랜덤 벡터 v로부터 존재하지 않는 가짜 얼굴 이미지인 xf 생성하는 것이 목표이다. , xf = φ(v) 이다.

 

2) Entire Face Synthesis

신경망 φ(·)으로 GAN이나 VAE 주로 사용된다. 이때 GAN 메인스트림 기본 기술이다. 유명하고 인기있는 전체 얼굴 합성 기술은 PGGAN, StyleGAN, GAN 기반 기술이고 높은 품질의 딥페이크 이미지를 생성할 있다.

VAE GAN보다 현실성이 떨어지는 얼굴을 생성한다. 또한 VAE 생성한 이미지는 흐릿한 경향이 있는데, 학습 원칙이 학습 데이터 지점에 높은 확률을 할당하기 때문에 흐릿한 데이터 지점에는 낮은 확률에 할당되는 것을 방지할 없다. 따라서 앞으로는 GAN 관련 연구를 소개한다. 학습 안정성, 고해상도, 그리고 정교한 얼굴 속성 제어가 전체 얼굴 합성 기술에서 진화해온 주요 기술적 특성이다.

 

3) Technical Evolution of Entire Face Synthesis

전체 얼굴 합성하는 방법은 이미지 생성 작업이다.

 

(1) GAN

GAN(Generative Adversarial Network)2014Goodfellow et al.에 의해 제안되었고 학습된 생성기가 의미 있는 샘플을 만든다는 것을 알 수 있었다. 그러나 생성된 샘플은 저해상도이며 인위성이 있다는 단점이 있었고 네트워크가 학습하기에 안정성이 떨어졌다.

 

(2) DCGAN, 딥페이크의 초기 연구

GAN의 문제를 해결하기 위해 생성기가 사람 얼굴을 포함하여 자연적인 장면을 생성할 수 있도록 CNN 설계 기술을 활용한 deep convolutional generative adversarial network(DCGAN)가 제안되었다.

 

(3) Wasserstein GAN (WGAN), 학습 안정성 개선 연구

GAN의 결함을 이론적으로 분석하여 Wasserstein 거리를 손실로 간주하는 Wasserstein GAN(WGAN)이 제안되었다. WGAN는 훈련 안정성에 중점을 둔 획기적인 연구이다. WGAN은 생성기와 판별기 사이 균형을 유지하면서 발생하는 모드 드롭 현상 문제를 해결하기 위해 기대-최대화(EM, expection-maximization) 거리 근사치를 합리적이고 효율적으로 최소화하였다. WGAN DCGAN보다 자연스럽고 높은 품질의 얼굴을 생성할 있다.

WGAN을 개선한 여러 연구도 제안되었다. Gradient penalty WGAN(WGAN-GP) 연구는 WGAN의 좋지 않은 샘플 생성이나 수렴에 실패하는 문제를 해결하기 위해서는 WGAN의 가중치 클립핑 작업을 개선해야 하므로 가중치 클립핑 작업 개선 위해 입력된 가짜 이미지에 대한 판별기의 기울기 규범에 페널티를 주는 방법을 제안했다. Cramer GAN(CramerGAN)은 단순히 Wasserstein 확률을 사용하는 것은 합계 불변성, 스케일 민감도, 편향되지 않은 샘플 기울기를 만족할 수 없기 때문에 Wassersteinkullback-Leibler 차이점을 결합한 Cramer 거리를 제안했다. Boundary equilibrium GAN(BEGAN)은 생성기에 대한 판별기 성능의 균형을 맞추기 위해 균형 강화 방법에 Wasserstein 거리로부터 파생된 손실을 함께 사용하는 방법과 이미지 다양성과 시각 품질 사이 균형을 제어하는 새로운 방법을 제안했다.

 

(4) PCGAN, 고해상도 합성 얼굴 생성을 위한 연구

PGGAN은 고해상도 이미지를 생성하는 처음 제안되고 유명한 연구이다. 고해상도 가짜 이미지를 만드는데 2가지 어려움이 있다. 첫째, 해상도가 높아지면 판별기에서 실제 이미지와 가짜 이미지를 쉽게 구별할 수 있어 GAN 훈련 중 생성기의 소실 기울기 문제가 커진다. 둘째, 메모리 한계 때문에 고해상도 이미지는 작은 배치 크기를 만들게 되어 학습 안정성이 떨어지게 된다. 이러한 문제를 해결하기 위해 PGGAN는 처음에 훈련 과정에서 생성기와 판별기의 생성 이미지의 공간 해상도를 4 X 4픽셀로 설정하고, 훈련을 진행하면서 생성기에 층을 추가해가면서 점진적으로 판별기에서 생성된 이미지의 공간 해상도를 증가시켰다. 이 방법은 결과적으로 고해상도 가짜 얼굴을 생산할 수 있었고 GAN의 안정성을 높이면서 학습 속도를 증가시켜서 합리적이다. 그러나, 생성된 이미지 중에 실제와 거리가 있는 이미지가 있어 학습 절차가 충분하지 않다.

 

(5) BigGAN

BigGANImageNet 데이터셋을 이용하여 고해상도의 다양한 이미지의 생성을 시도했다. 직교 정규화를 사용한 방법으로 생성기의 입력 분산을 줄임으로써 이미지 충실도와 다양성 사이 균형을 제어할 수 있다.

 

(6) StyleGAN, 가짜 이미지의 정교한 속성 제어를 위한 연구

PGGAN에서 가짜로 만들려는 속성을 제어할 수는 없었던 기능을 보완하기 위해 PGGAN을 기반으로 StyleGAN이 제안되었다. StyleGAN은 잠재 코드를 비선형 매핑 네트워크를 통해 스타일코드로 변환한 후 적응형 인스턴스 정규화를 수행하는 데 사용된다. 확률론적 디테일을 생성하기 위해 콘볼루션 층 뒤에 가우시안 노이즈가 임베드 된다. 이를 통해 더 넓은 디테일 변화를 가진 고해상도 품질의 이미지를 생성할 수 있다.

StyleGAN2StyleGAN의 몇 가지 인위적인 부분을 드러내면서 이를 해결하기 위한 모델 아키텍처와 학습 방법의 변화를 제안했다. 생성기 일반화, 점진적 성장과 생성기 정규화의 새로운 설계를 통해 잠재 코드 내 좋은 조건을 이미지에 매핑시키는 것을 장려하는 방법을 사용한다.

 

(7) 흐름 기반 생성 모델 사용한 연구

생산적 흐름(Glow)는 이전 GAN 연구에서 사용한 모델과 달리 역전 1 X 1회선을 사용하는 흐름 기반 생성 모델을 사용한 연구이다. 로그-가능성 목표에 최적화된 모델이 효율적으로 사실적인 합성을 만들고 큰 이미지를 조작할 수 있다는 이론에 근거한 방법이다.

 

3.3 Attribute Manipulation

1) 정의 2

속성 조작은 실제 얼굴 이미지 xr 얼굴 속성 P 조작하여 새로운 가짜 이미지 xf 신경망 φ(·, ·) 사용하여 생성한다. , xf = φ(xr , P) 이다.

 

2) Technical Evolution of Attribute Manipulation

얼굴 속성 조작은 입력된 얼굴의 얼굴 속성을 변경하는 이미지 조작 작업으로, 인코더-디코더와 GAN을 사용하여 가능하다. 속성 조작의 최근 연구는 하나의 생성기를 통해 다른 영역을 유지하면서 원하는 얼굴 속성 영역만을 조작하는 데 집중하고 있으며, IcGAN, StarGAN, AttGAN, STGAN, HifaFace, 그리고 TediGAN연구가 속성 조작에서의 큰 진화의 흐름을 보여준다.

(1) IcGAN, 첫 번째 속성 조작 연구

IcGAN은 얼굴 속성 조작의 기반이 되는 연구이다. 실제 이미지를 잠재 공간으로 인코딩한 후 얼굴 속성에 해당하는 잠재 코드로 변경한다. 이후 잠재 코드를 가짜 얼굴 이미지로 디코딩한다. 효과적이지만 각 속성이 독립적인 딥 모델로 처리되어 여러 얼굴 속성을 조작하는 경우 시간이 오래 걸리는 단점이 있다.

 

(2) conditional GAN (cGAN)

실제 이미지를 잠재 공간과 조건부 표현에 매핑하는 인코더를 평가하여 실제 사람 얼굴 이미지의 임의 속성을 재구성하고 수정할 수 있게 했다.

 

(3) ExprGAN

표현력이 풍부하고 간결한 표현식 코드를 학습할 수 있는 표현식 컨트롤러 모듈을 인코더-디코더 네트워크에 추가하여 표정 강도를 조절해 사실적인 표정 편집이 가능하다.

 

(4) StarGAN

하나의 생성기로 서로 다른 속성을 조작할 수 있는 연구를 제안했다. 생성기를 통해 실제 이미지와 각 소스 도메인 레이블을 인코딩하고 가짜 이미지를 생성한다. 동시에 판별기는 진짜 얼굴과 가짜 얼굴을 분류하고 도메인을 식별한다. 학습된 GAN은 얼굴 속성의 의미론적 표현과 도메인 정보를 포함할 수만은 없다. StarGAN는 여러 도메인에 대해 이미지 간 번역을 수행할 수 있는 모델을 사용하여 서로 다른 도메인 데이터셋을 동시에 학습할 수 있다. StarGAN2는 이미지 간 번역에서 생성된 이미지의 다양성과 여러 도메인에서의 확장성을 동시에 만족하는 StarGAN을 개선한 연구이다.

 

(5) AttGAN, 정확한 속성 조작에 관한 연구

잠재 표현이 제약되지 않은 상태에서 인코더 입력에 원하는 속성 변형을 지정하면 정보 손실이 발생하고 지나치게 매끄럽고 왜곡되게 생성될 수 있는 단점을 보완하기 위해 생성된 영상에 속성 분류 제약 조건을 적용하는 AttGAN을 제안했다. 속성의 올바른 변경을 보장할 수 있다.

 

(6) STGAN

STGAN은 다른 속성 영역을 보존하면서 원하는 변경된 얼굴 속성을 강조하도록 하는 생성기를 구현하고, 속성 조작 능력과 이미지 품질을 개선하기 위한 선택적 전송 유닛이라는 새로운 아키텍처를 제안하였다. 속성 조작 정확도와 인식 품질을 향상할 수 있었다.

 

(7) HifaFace

AttGAN, StarGAN 훈련 주기 일관성을 사용하여 원하지 않는 속성 변조를 방지하는데 입력 이미지의 세부 사항을 새로운 이미지에 매핑하기 때문에 사이클 일관성을 보장할 없다. 원하지 않는 속성의 디테일을 유지하기 위해 HifaFace 제안한다. 주요 아이디어는 인코딩과 디코딩 프로세스에서 고주파 이미지 전송 정보를 유지하는 것이다.

 

(8) Text-guided diverse image generation and manipulation GAN (TediGAN)

텍스트 설명이 포함된 다중 모드 이미지 생성 조작을 위한 네트워크로, 공통 임베드 공간에 이미지와 텍스트를 매핑하고 텍스트 이미지 매칭을 학습하여 다양한 속성의 형태를 대화형으로 편집이 가능하다.

 

(9) HistoGAN

색상 히스토그램을 사용하여 이미지의 색상 혼합을 조작한다.

 

3.4 Identity Swap

1) 정의 3

신경망 φ(·, ·) 사용하여 원본 이미지 xsidentity를 대상 이미지 xtidentity ti로 대체하고 새로운 가짜 이미지 xf를 생성한다. , xf = φ(xs­ ,ti) 이다.

 

2) Identity Swap

가짜 동영상의 이미지는 품질이 고르지 않다는 특성이 있기 때문에, identity swap은 이미지의 사실감과 해상도 개선에 초점을 맞추어 연구되어 왔다. 이러한 기능을 위해 자동 인코더 기반과 GAN 기반의 크게 2개의 아키텍처가 있다.

 

3) Technical Evolution of Identity Swap

identity swap과 관련한 기술에서는 어떻게 sourcetarget 이미지에서 특성 속성과 identity를 잘 분리하고 융합할지에 초점을 맞추고 있다. identity swap에서 주요 기술은 autoencoder 기반 연구, GAN 기반 연구, MegaFS, 그리고 FaceInpainter이다.

 

(1) autoencoder, general pipeline

하나의 공유된 인코더와 두 개의 독립된 디코더를 사용하는 방식이다. 인코더와 디코더 중 하나의 디코더는 source identity에 의해 학습되고, 인코더와 다른 인코더는 target identity에 의해 학습된다. 모델을 훈련한 후, 인코더는 source target identity에서 특성을 추출하고 두 개의 디코더는 sourcetarget 이미지를 재구성하는 데 사용된다. 추론 시 identity swap이 이루어지는 동안 source identity의 잠재 코드가 target identity의 디코더에 전달되어 디코딩된 얼굴이 swap된다. Autoencoder를 사용하는 방식은 얼굴에서 선택된 특성을 잠재 코드로 추출하는 것과 더 사실적인 이미지 생성에 어려움이 있다.

 

(2) CycleGAN, identity swap에서 초기 GAN 기반 방식 연구

오늘날 identity swap에서 GAN 기반 방식이 주류로, 이미지 변환 작업에서 쌍을 이루는 샘플 부재의 한계를 해결하기 위해 첫 번째 GAN 기반 연구인 CycleGAN2017년에 제안되었다. Source 도메인을 X, target 도메인을 Y라 할 때, 제약이 약한 매핑 G : X Y를 구축하고 역매핑 F: Y X를 구축한 후 F(G(X)) X를 강제하는 순환 일관성 손실이 target 모델의 최적화로, 이 순환을 통해 쌍을 이루는 샘플이 필요 없다. CycleGANidentity swap에 쉽게 적용할 수 있다.

 

(3) Faceswap-GAN

적대적 손실과 지각적 손실을 인코더에 추가하여 CycleGAN을 구현함으로써 Identity swap의 기능을 제공하는 기법이다.

 

(4) Face swapping GAN (FSGAN)

얼굴 쌍의 훈련에 의존하지 않는 대상 불가지론 방법이다. 하나의 이미지와 동영상 순서 모두에서 포즈, 표현, 그리고 identity 변화를 동시에 조절할 수 있는 첫 번째 사례이다.

 

(5) FaceShifter

높은 충실도와 폐색 인식 얼굴 교환을 위한 두 가지 단계를 제안한 연구로, 대상 이미지 정보를 철저히 활용하여 교환된 얼굴을 생성한다.

 

(6) Apperance optimal transport (AOT)

겉모습 매핑을 최적 전송 문제로 공식화하여 AOT 모델을 제안하였다. Relighting 모듈을 최적 전송 계획을 시뮬레이션하도록 설계하였고, 최적화 대상은 잠재 공간 내에서 학습된 특성의 Wasserstein 거리를 최소화하는 것이다. 이를 통해 기존 최적화보다 성능이 더 좋고 적은 연산을 수행한다.

 

(7) InfoSwap

Information disentangling and swapping network(InfoSwap)는 가장 표현적인 정보를 추출하는 것을 목표로 하며, 이를 위해 분리된 표현 학습을 정보 병목 현상을 최적화하여 공식화하는 것이 주요 아이디어이다. 정보 병목 원칙은 잠재 공간 내에서 신원과 무관한 것으로 스코어 된 영역은 신원을 예측하는 정보로 거의 사용되지 않는다는 것을 보장한다.

 

(8) MegaFS, 최초의 초고해상도 얼굴 스왑 방식에 관한 연구

생성된 얼굴 이미지의 충실도를 향상하기 위해 자동 인코더와 GAN을 결합한 방식이 2018년에 제안되었는데, 가짜 이미지를 더 현실적으로 만들 수 있으나 저해상도 이미지에서 고해상도를 생성할 수 없는 단점이 있다. 이 문제를 해결하기 위해 최초의 초고해상도 얼굴 스왑 방식인 Megapixel level face swapping(MegaFS)이 제안되었다. 인코더에서의 정보 손실을 극복하기 위해 계층적 표현 얼굴 인코더(HieRFE)를 사용하여 전체 얼굴 표현을 찾는다. Face transfer module(FTM)은 명시적인 특징 분리 없이 동기적으로 여러 속성을 제어할 수 있다.

 

(9) FaceInpainter

이질적인 도메인 아래에서 제어할 수 있는 얼굴 인페인팅 네트워크이다. 첫 번째 단계에서 styled face inpainting network(SFI-Net)을 사용하여 identity과 특성 속성에 매핑하고, 두 번째 단계에서 joint refinement network(JR-Net)를 사용하여 특성과 identity 세부 사항을 정제하고 폐색 인식과 고해상도의 스왑된 얼굴을 생성한다.

 

(10) 최근 연구

sourcetarget에서의 이질적인 소재로 인한 사실적인 이미지 표현 한계에 대한 문제 해결을 위한 연구가 진행되었다.

 

 

 

 

3.5 Expression Swap

1) 정의 4

Expression swap은 신경망 φ(·,·)를 사용하여 source 이미지 xs의 표현을 target 이미지의 표현 te로 대체하고 새로운 가짜 이미지 xf를 생성을 목표로 한다. , xf = φ(xs,te)이다.

 

2) Technical Evolution of Expression Swap

Expression swap는 얼굴 재현이라고도 하며 주로 실제 이미지의 입이 변경되는데, 현재 연구는 주로 입력 source의 다양성과 동영상 일관성을 향상하는 데 집중하고 있다. Expression swap는 입력 소스의 다양성, 제어할 수 있는 표현, 그리고 동영상 일관성 측면에서 기술적 향상이 이루어져 왔다.

 

(1) Face2Face, 3D 모델을 사용한 연구

Face2Face는 딥러닝을 사용하지 않는 3가지 절차로 표현을 스왑한다. 먼저, 사전에 기록한 학습 순서에 따라 대상 사람의 신원 형상을 재구성하기 위해 글로벌 비강성 모델 기반 번들링을 사용한다. 다음으로, source identity의 표현을 target의 표현으로 변환한다. 마지막으로, 현실적인 입을 생성하기 위해 이미지 기반 입 synthesis로 가장 매칭되는 입 모양을 가져온다. 전체 절차는 합리적이나 복잡한 3D 얼굴 모델이 필요하고 얼굴에서 부분적 움직임을 모두 가져오는 데 상당한 노력이 필요한 단점이 있다.

 

(2) A2V, 오디오를 입력으로 사용하여 표현을 합성한 연구

A2V는 오바마의 연설에서의 오디오 특성을 입 모양에 매핑하는 모델을 학습하기 위해 순환 모델을 사용했다. 순환 모델을 사용해서 입술 모양(18개의 입술 기준점)에 오디오를 매핑한 후, 생성된 입술 기점을 기반으로 사실적인 입술 텍스처를 생성하면 오디오 기반으로 한 표현 스왑이 이루어진다.

 

(3) ICFA

명시적 3D 모델 피팅을 우회하기 위해서는 큰 규모의 데이터를 통해 딥러닝을 학습하는 것인데, identity 특성과 독립된 표현과 포즈를 수집하기 어렵고 이런 암묵적 모델은 해석 가능성이 부족하여 다른 얼굴에서의 다양한 얼굴 속성을 합성하기 어려운 문제가 있다. 이 문제를 해결하기 위해 ICFA는 감정을 나타내기 위한 행동 단위(AUs)를 사용하는 방법을 제안했다. AU17개의 안면 근육 활성화를 나타내어 근육 조합에 따라 다양한 표정을 생성할 수 있다.

 

(4) MarioNETte

기존 연구에서 대상의 세부 정보가 손실되어 결과 얼굴에 결함이 있을 수 있다. 이 문제를 해결하기 위해 source identity의 얼굴 특성이 target identity와 멀리 떨어져 있어도 target identity 정보를 보존할 수 있는 few-shot 얼굴 재연 프레임워크인 MarioNETte가 제안되었다.

 

(5) ICface, 행동 단위를 사용하여 표현을 나타낸 연구

ICface가 제안한 주어진 얼굴 이미지로부터 포즈와 표현을 제어할 수 있는 2단계 신경망 얼굴 애미메이터는 큰 규모의 identity에도 적합한 GAN 기반 시스템이다.

 

(6) PC-AVS

기존 연구에서 머리 포즈를 모델링 하지 못해 말하는 얼굴이 자연스럽지 못했던 문제를 해결하기 위해 cross-modal 방식의 Pose-controllable audio-visual system(PC-AVS)이 제안되었다. PC-AVS는 포즈 소스 오디오를 추가하여 머리 움직임만 보정하고 말하는 사람의 얼굴에서 음성 내용, 머리 포즈와 identity를 분리하는 데 성공했다.

 

(7) FACIAL-GAN

기존의 cross-modal 방식에서 입력 오디오와 관계가 적은 머리 포즈나 눈 깜빡임과 같은 암시적 동작을 무시했는데, 이러한 암시적 관계를 모델링하기 위해 음성, 문맥, identity 인식 정보를 통합하여 입술, 머리 포즈와 눈 깜빡임을 3D 애니메이션으로 합성한다.

 

(8) SVGAN, 동영상에서 일관성을 유지하기 위해 두 가지 손실을 제안한 연구

이전 연구에서 이미지의 표현 스완에 초점을 맞췄는데, 동영상에서의 표현 스왑의 어려움을 해결하고 동영상에서 사실적인 표정 스왑을 구현하기 위해 Self-supervised video GAN(SVGAN)이 제안되었다. 이 연구에서 영상에서 해결해야 할 2가지 제약조건인 외관 대비 손실과 시간적 구조 손실을 명확히 제시하였다. 외관 대비 손실은 판별기가 동영상에서 시간에 따라 변하지 않는 외관의 표현을 학습하는 것이고, 시간적 구조 손실은 판별기가 동영상에서 시간적 순서가 일관되는지 판별한다. 두 손실은 동영상에서 겉모습의 일관성과 동작의 일관성을 보장한다.

 

(9) one-shot neural talking-head synthesis

원샷 신경 토킹 헤드 합성법은 비지도 학습을 이용하여 이미지의 주요 특성을 분해하고, 원본 이미지의 외형 특성과 표준 키포인트 머리 포즈나 표정 변형 등을 합성하여 가짜 이미지를 생성한다. 이 기법은 얼굴 정보를 명확하게 분해하고 재구성할 수 있다.

 

 

3.6 Real Dataset

Real dataset은 딥페이크 탐지기의 비지도 학습을 위해 필요하며, 아래는 빈번히 사용되는 real dataset이다.

 

(1) CASIA-WebFace: 많은 이미지를 반자동으로 수집하는 방법 제안

(2) CelebA: 유명한 데이터셋인 CelebFaces로부터 선택한 이미지 구성한 데이터셋

(3) VGGFace: 유명한 VGGNetVGGFace 데이터셋을 통해 학습됨

(4) MegaFace: probe set에 포함되지 않은 개인과 같은 방해 요소가 있을 때 얼굴 인식 알고리즘의 작동 방식을 평가하는 MegaFace 챌린지 설정

(5) LSUN: 가짜 생성 방식에 널리 사용되는 유일한 비대면 실제 데이터셋

(6) MS-Celeb-M: 얼굴 인식 기술 개발에 사용

(7) VGGFace2: 포즈, 나이, 조명, 인종, 직업에 따라 차이가 있는 인터넷에서 수집한 이미지 데이터셋

(8) Flickr-Faces-HQ(FFHQ): 1024 X 1024 해상도의 고품질 이미지

 

 

3.7 Fake Dataset

가짜 이미지/동영상 데이터셋은 딥페이크 생성 방법의 성능을 테스트하기 위한 벤치마크이다. 딥페이크 생성 기술 발전에 따라 데이터셋의 품질과 충실도가 높아지고 있다. 다음은 유명한 가짜 데이터셋으로, FaceForensics, FaceForensics++ 데이터셋이 가장 인용 횟수가 높다.

(1) UADFV: FakeAPP으로 생성된 데이터셋

(2) DeepFake-TIMIT: faceswap-GAN으로 생성된 비디오 데이터셋

(3) DFDC Preview: 2개의 얼굴 변형 알고리즘을 적용하여 생성한 데이터셋으로, 성별, 피부색, 나이 등이 다르고 임의의 배경으로 녹화하여 시각적 다양성을 제공함

(4) Google DFD: 실제 동영상을 기반으로 딥페이크 생성 방법을 사용하여 생성된 가짜 동영상 데이터셋

(5) FaceForensics++: 딥페이크, Face2Face, FaceSwapNeuralTextures4가지 자동 얼굴 조작 방법으로 생성된 가짜 동영상 데이터셋

(6) Celeb-DF: 큰 규모의 딥페이크 동영상 데이터셋

(7) Diverse Fake Face Dataset(DFFD): FFHQ, CelebA, FaceForensics++의 소스 프레임을 활용하여 FaceAPPStarGAN, PGGAN, 그리고 StyleGAN을 사용하여 생성한 가짜 이미지와 동영상 데이터셋

(8) FakeCatcher: 생성 모델, 해상도, 압축, 내용, 그리고 문맥에 독립적인 야생의 동영상을 포함한 가짜 동영상 데이터셋

(9) iFakeFaceDB: StyleGAN 모델로 생성되고 GANprintR로 변형된 224 X 224 크기의 가짜 이미지 데이터셋

(10) DFDC: 탐지 모델에서 학습할 수 있도록 Facebook에서 큰 얼굴 동영상 데이터셋을 구성하였고  개최된 딥페이크 탐지 챌린지(DFDC)에서는 Face swap 동영상 데이터셋을 제공

(11) Vox-DeepFake: 큰 규모의 딥페이크 탐지 데이터셋으로, identity와 동영상 내용 면에서 품질과 다양성이 좋음

(12) DeeperForensics-1.0: 가장 큰 규모의 얼굴 위조 탐지 데이터셋으로, 야생에서 데이터를 수집하지 않고 전문적인 실내 환경에서 제어 가능한 데이터를 수집하고 딥페이크 변형 자동 인코더(DF-VAE)를 제안

(13) WildDeepfake: 이전의 가짜 데이터셋은 제한된 장면과 등장하는 인물, 그리고 몇 가지 딥페이크 소프트웨어로만 생성되어 데이터셋의 다양성이 부족하지만 야생의 딥페이크는 많은 인물이 등장하는 장면과 다양한 장면을 촬영할 수 있는 것을 기반으로 인터넷에서 수집한 딥페이크 비디오를 통해 추출한 데이터셋

(14) ForgeryNet: 이미지 위조 분류와 공간 위조 로컬화, 동영상 위조 분류, 시간적 위조 로컬화 작업을 위해 설계된 큰 규모의 얼굴 위조 데이터셋

(15) DF-W: Youtube, Bilibili, Reddit에서 수집한 가짜 동영상을 포함한 가짜 데이터셋으로, 현존하는 탐지 방법이 효과적으로 딥페이크 동영상에 적용할 수 있는지 확인하기 위해 생성됨

(16) FFIW10K: 여러 사람이 등장하면 효과적으로 검출하지 못하는 기존의 방법의 한계를 극복하기 위해 각 프레임에 평균 3개의 사람 얼굴이 포함된 고품질 가짜 동영상과 실제 동영상으로 구성된 데이터셋

(17) OpenForensics: 다중 얼굴 위변조 검출 작업뿐만 아니라 자연 상태의 분할 작업을 위한 위조 고양이, 경계 상자, 분할 마스크, 위조 경계 및 일반 얼굴 랜드마크와 같이 얼굴에 대한 풍부성 제공하는 데이터셋

 

3.8 DeepFake Challenges

딥페이크 탐지 챌린지(DFDC) DeeperForensics 챌린지 2020이 가장 유명한 딥페이크 챌린지로, DeeperForensics-1.0DFDC 데이터셋이 두 챌린지에서 사용됐다. 딥페이크 탐지 챌린지 2020FacebookKaggle 플랫폼에서 개최하는 대회로, 이 대회에서 상위 5등은 모두 이미지 기반 탐지 방법을 사용하였고, 그중 셋은 backbone 모델로 EfficientNet을 사용하였다. DeeperForensics 챌린지 2020CodaLab 플랫폼에서 개최되었고, 바이너리 cross-entropy 손실(BCELoss)를 사용하여 탐지 모델의 성능을 평가했다. 상위 3등 중 둘은 backbone 모델로 EfficientNet를 사용했다. 챌린지에서 알 수 있듯이, 위변조 탐지 모델의 backbone 모델로 EfficientNet을 사용하고 적절한 데이터 보강을 사용하여 모델 성능을 높일 수 있었다.

 

3.9 Summary of DeepFake Generation Methods

딥페이크 생성 방법에는 생성된 이미지의 해상도, 조작할 있는 얼굴 속성, 동영상의 연속성 개선할 있는 부분이 많다. 딥페이크 생성 유형에서 사용되는 상위 3개의 모델은 전체 얼굴 합성에서는 DCGAN, GDWCT, Style-GAN2이고, 속성 조작에서는 StarGAN, AttGAN, HifaFace, identity swap에서는 FaceForensics++, DFDC, OpenForensics, 그리고 expression swap에서는 Face2Face, SVGAN이다.

 

1) Elo 지표의 사용

논문에서는 동향 분석 사용한 Elo 등급은 생성 방법의 탐지 난이도에 따라 순위를 매기는 적합하여 사용되었다. 탐지기와 생성기 일대일 대결을 기반으로 효율적이고 객관적으로 순위를 매길 있다.

 

2) 생성기와 탐지기 사이 battleground 위한 지표

논문에서 주로 다루는 딥페이크 생성과 탐지 사이 battleground 위해서는 가장 검출하기 어려운 딥페이크 생성 기법을 알아야 한다. 또한 battleground에서의 지표는 3가지 요구사항을 충족해야 한다: (1) 지표는 딥페이크 생성 방법의 과거 성능을 반영한다. (2) 지표는 딥페이크 생성 방법이 하나 이상의 딥페이크 생성 방법과 여러 논문에 걸쳐 평가될 있을 만큼 유연해야 한다. (3) 지표는 객관적이어야 한다. 3가지 요구사항을 모두 충족할 있는 Elo 지표를 사용한다.

 

3) 딥페이크 생성 방법의 Elo 등급 계산

딥페이크 생성 방법의 Elo 점수를 1400으로 설정하여 딥페이크 탐지 방법에서 해당 탐지 방법이 감지한 딥페이크 생성 방법을 수집하고, 감지 정확도/AUC 따라 생성 방법을 정렬한다. 딥페이크 탐지 방법에서 생성 방법의 랭킹에 따라 생성 방법 강한 관계와 약한 관계를 생성하고 이를 바탕으로 생성 방법의 Elo 점수를 계산한다. 이후 계산한 Elo 점수에 따라 생성 방법을 정렬한다.

Elo 점수 시스템의 가지 단점은 생성 방법이 경쟁자 나타나고 다른 경쟁자를 이긴 경우 해당 생성 방법의 점수가 급격하게 향상되고, 오랫동안 탐지되지 않은 생성 방법은 점수가 변경되지 않아 해당 생성 방법의 난이도를 반영할 없다.

728x90
반응형

관련글 더보기