포티투닷 | 42dot - We Are A Mobility AI Company

Faces that Speak: Jointly Synthesising Talking Face and Speech from Text

Authors : Youngjoon Jang, Ji-Hoon Kim, Junseok Ahn, Doyeop Kwak, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim, Joon Son Chung

Conference : CVPR

Year Published : 2024

Topics : Computer Vision

이 연구의 목표는 텍스트로부터 자연스러운 talking faces와 speech outputs를 동시에 생성하는 것이다. 이를 위해, 우리는 Talking Face Generation (TFG)와 Text-to-Speech (TTS) 시스템을 통합한 unified framework를 제안한다. 본 연구에서는 각 작업의 주요 도전 과제, 즉 (1) 실제 시나리오를 대표할 수 있는 다양한 head poses를 생성하는 문제와 (2) 동일한 정체성임에도 불구하고 얼굴 움직임의 변화에 따른 voice consistency를 보장하는 문제를 다룬다. 이러한 문제를 해결하기 위해, 우리는 conditional flow matching에 기반한 motion sampler를 도입하여 효율적인 방식으로 고품질 motion code를 생성할 수 있도록 하였다. 또한, TFG 모델에서 추출한 motion-removed features를 활용해 uniform한 speech outputs를 생성하는 새로운 conditioning 방법을 TTS 시스템에 적용하였다. 우리의 광범위한 실험 결과는 제안한 방법이 입력 텍스트와 정확히 일치하는 자연스러운 talking faces와 speech를 효과적으로 생성함을 보여준다. 우리의 지식으로는, 이는 unseen identities에도 일반화할 수 있는 multimodal synthesis system을 구축한 첫 번째 시도이다.