ASBERT: ASR-Specific Self-Supervised Learning with Self-Training
Authors : Hyung Yong Kim, Byeong-Yeol Kim, Seung Woo Yoo, Youshin Lim, Yunkyu Lim, Hanbin Lee
Conference : SLT
Year Published : 2022
Topics : Speech Recognition

Abstract


자기지도학습(Self-supervised learning)의 사전학습(pre-training)은 다양한 음성처리 작업에서 우수한 성능을 보이는 것으로 알려져 있습니다. 하지만 이러한 사전학습 방식은 특정 작업, 예를 들어 음성 인식(ASR)과 같은 작업의 미세 조정을 위해서는 최적의 솔루션이 아닐 수 있습니다. ASR에 보다 최적화된 사전 학습 모델을 제공하기 위해, 우리는 자기 학습(Self-Training) 기법을 활용한 ASBERT를 소개합니다. 자기 학습에서 영감을 받아, 미세 조정된 모델에서 언어적 관련성을 가진 수도 레이블(pseudo label)을 추출하고, 이를 다음 사전 학습 절차에 사용합니다. LibriSpeech test-clean 및 test-other 데이터셋에 대한 실험 결과에 따르면, 언어 모델(LM)을 사용하지 않은 ASBERT는 기존 SSL 및 자기 학습 모델보다 뛰어난 성능을 보여, 각각 6.3/2.0% 및 15.4/13.2%의 상대 단어 오류율 감소(Relative Word Error Rate Reduction)를 달성했습니다. 더욱이, 수도 전사(pseudo-transcription)를 사용하지 않고도 ASBERT는 기존 자기 학습 방식과 유사한 성능을 보였습니다.