포티투닷 | 42dot - We Are A Mobility AI Company

Factspeech: Speaking a Foreign Language Pronunciation Using Only Your Native Characters

Authors : Hong-Sun Yang, Ji-Hoon Kim, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim, Shuk-Jae Choi, Hyung-Yong Kim

Conference : Interspeech

Year Published : 2023

Topics : Speech Synthesis

Abstract

최근 음성합성 기술에서는 현실 세계에서 자주 사용되는 혼합 언어 문장을 자연스럽게 음성으로 변환하는 기능이 요구되고 있습니다. 그러나 대부분의 기존 모델은 음역(Transliteration)된 단어를 제대로 처리하지 못하는 경우가 많습니다. 특히, 노래 제목과 같은 음역된 텍스트를 음성으로 변환할 때 단어를 그대로 읽는 방식은 부자연스러운 결과를 초래할 수 있습니다.

이 문제를 해결하기 위해 저희는 FACTSpeech 라는 모델을 개발했습니다. 이 모델은 음역된 텍스트에서도 자연스럽고 원어에 가까운 음성을 생성할 수 있으며, 사용자가 원어 발음과 문자 그대로의 발음 중 원하는 방식으로 선택할 수 있는 기능을 제공합니다.

FACTSpeech의 핵심은 ""언어 전환 임베딩(Language Shift Embedding)""이라는 새로운 기술로, 이를 통해 입력 텍스트의 발음을 자유롭게 조정할 수 있습니다. 또한 Conditional Instance Normalization 기법을 활용하여 화자의 음성 특성을 유지하면서도 발음을 더욱 정확하게 개선했습니다.

실험 결과, FACTSpeech는 음역된 형태의 문장에서도 자연스럽고 원어에 가까운 음성을 성공적으로 생성하며, 사용자가 원하는 발음 스타일을 효과적으로 반영할 수 있음을 확인했습니다.