포티투닷 | 42dot - We Are A Mobility AI Company

Joint unsupervised and supervised learning for context-aware language identification

Authors : Jinseok Park, Hyung Yong Kim, Jihwan Park, Byeong-Yeol Kim, Shukjae Choi, Yunkyu Lim

Conference : ICASSP

Year Published : 2023

Topics : Language Identification

Abstract

Language Identification (LID)은 발화된 음성의 언어를 자동으로 인식하는 기술입니다. 최근 연구에 따르면, Automatic Speech Recognition (ASR) 과제로 학습된 LID 모델이 LID 과제만으로 학습된 모델보다 더 우수한 성능을 보이는 것으로 나타났습니다. 그러나 ASR 모델을 학습시키기 위해서는 추가적인 text 레이블이 필요하며, 이러한 레이블을 획득하는 데 높은 비용이 소요됩니다. 이 문제를 해결하기 위해, 우리는 text 레이블 없이 unsupervied learning 과 supervised learning을 결합한 context-aware LID 방법을 제안합니다. 제안된 방법은 Masked Language Modeling (MLM) loss를 통해 음성의 문맥을 학습하고, 동시에 supervised learning loss를 통해 발화의 언어를 판별하도록 모델을 훈련합니다. 제안된 학습 방법은 VoxLingual107-T11 데이터셋을 사용한 실험에서, 지도 학습만으로 훈련된 동일 구조의 모델과 비교해 오류율을 15.6% 감소시키는 성과를 보였습니다.