Voxtlm: Unified Decoder-only Models for Consolidating Speech Recognition/Synthesis and Speech/Text Continuation Tasks
Authors : Soumi Maiti, Yifan Peng, Shukjae Choi, Jee-weon Jung, Xuankai Chang, Shinji Watanabe
Conference : ICASSP
Year Published : 2024
Topics : Speech Recognition, Speech Synthesis
Abstract
VoxtLM은 음성 인식, 음성 합성, 텍스트 생성, 음성 생성 등 다양한 작업을 수행할 수 있는 디코더 기반 언어 모델입니다. 텍스트 어휘와 이산(discrete) 음성 토큰을 통합하여 멀티태스킹 학습을 가능하게 했으며, 이를 통해 단일 작업 모델(single-task model) 대비 뛰어난 성능 향상을 입증했습니다. 본 논문의 연구 결과와 함께 코드 및 모델을 공개하여, 음성을 포함한 멀티모달 언어 모델 연구의 발전에 기여하고자 합니다. VoxtLM은 관련 연구자들에게 중요한 참고 자료로 자리 잡고 있습니다.