Abstract
이 논문의 목표는 얼굴 생성기(face generator)의 잠재 공간(latent space)을 조작하여 제어 가능한 얼굴 동작(controllable facial motions)을 가진 말하는 얼굴(talking faces)을 합성하는 것입니다. 이를 달성하기 위해 두 가지 핵심 아이디어를 제안합니다. 첫 번째는 모든 얼굴이 동일한 동작 패턴(motion patterns)을 가지면서도 서로 다른 정체성(identities)을 가진 canonical space를 구축하는 것입니다. 두 번째는 정체성(identity)을 제거하고 동작과 관련된 특징(motion-related features)만을 나타내는 다중 모달 동작 공간(multimodal motion space)을 탐색하는 것입니다. 정체성과 동작(motion)을 분리하기 위해 두 개의 다른 공간latent spaces 사이에 직교성 제약(orthogonality constraint)을 적용합니다. 이를 통해 저희 방법은 완전히 제어 가능한 얼굴 속성(fully controllable facial attributes)과 정확한 입술 동기화(lip synchronisation)를 갖춘 자연스러운 말하는 얼굴(talking faces)을 생성할 수 있습니다. 광범위한 실험을 통해 저희 방법이 시각적 품질(visual quality)과 입술 동기화 점수(lip-sync score) 모두에서 최고(state-of-the-art) 결과를 달성함을 입증했습니다. 저희의 지식에 따르면, 저희는 RGB 비디오(RGB video)와 오디오(audio) 외에 추가적인 감독(supervision) 없이도 생성된 비디오에서 입술(lip), 머리 자세(head pose), 눈 움직임(eye movements), 심지어 표정(expressions)을 포함한 목표 얼굴 동작(target facial motions)을 정확하게 반영할 수 있는 말하는 얼굴 생성 프레임워크(talking face generation framework)를 최초로 개발하였습니다.