포티투닷 | 42dot - We Are A Mobility AI Company

CrossSpeech: Speaker-independent Acoustic Representation for Cross-lingual Speech Synthesis

Authors : Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim

Conference : ICASSP

Year Published : 2023

Topics : Speech Synthesis, Cross-Lingual

Abstract

최근 음성합성(TTS) 기술은 인간 수준의 품질에 가까운 성능을 보여주며 큰 발전을 이루고 있지만, 다국어 TTS에서는 여전히 단일 언어 TTS에 비해 성능 차이가 큽니다. 이러한 격차는 주로 다국어 TTS에서 발생하는 화자-언어 얽힘 문제(speaker-language entanglement)에서 비롯됩니다.

이 문제를 해결하기 위해 저희는 CrossSpeech라는 새로운 접근 방식을 제안합니다. CrossSpeech는 음향 특징 공간(acoustic feature space)에서 화자 정보와 언어 정보를 효과적으로 분리하여 다국어 음성 품질을 개선하는 데 초점을 맞추고 있습니다.

CrossSpeech는 음성 생성 과정을 화자 독립 생성기(Speaker-Independent Generator, SIG)와 화자 종속 생성기(Speaker-Dependent Generator, SDG)로 나눕니다. SIG는 특정 화자 분포에 치우치지 않는 화자 독립적 음향 표현을 생성하고, SDG는 화자 고유의 속성을 반영하는 화자 종속적 음성 변화를 모델링합니다. 이렇게 정보 처리를 분리함으로써 CrossSpeech는 화자와 언어 정보를 독립적으로 표현할 수 있습니다.

실험을 통해 CrossSpeech가 다국어 TTS 품질을 크게 향상시킨다는 점을 확인했으며, 특히 목표 화자와의 화자유사도 면에서 뛰어난 성능을 보여주었습니다. 이로써 CrossSpeech는 다국어 TTS의 한계를 효과적으로 극복할 수 있는 가능성을 제시합니다.