ASR/Self-training ASR Guided by Unsupervised ASR Teacher
Authors : Hyung Yong Kim, Byeong-Yeol Kim, Yunkyu Lim, Jihwan Park, Shukjae Choi, Yooncheol Ju, Jinseok Park, Youshin Lim, Seung Woo Yu, Hanbin Lee, Shinji Watanabe
Conference : Interspeech
Year Published : 2024
Topics : Speech Recognition
Abstract
셀프 트레이닝(self-training)은 음성 인식 성능을 크게 향상시킬 수 있다는 점에서 점점 더 많은 주목을 받고 있습니다. 그러나 기존의 셀프 트레이닝 기술에는 두 가지 주요 한계가 있습니다. (1) teacher network가 pseudo-target을 생성하기 위해 학습되는 과정에서 레이블이 있는 데이터셋이 필요하며, (2) 소규모 레이블 데이터셋으로 처음 학습된 teacher network 과적합 문제를 겪어 미지의 데이터셋에 대해 노이즈가 많은 pseudo-target을 생성합니다.
이에 반해, 제안된 접근 방식은 비지도 음성 인식(unsupervised automatic speech recognition, UASR) 모델을 teacher network로 사용하여 레이블이 없는 데이터셋만 활용합니다. 또한, 제안된 모델은 중간 계층에서 UASR 교사로부터 음운 정보를 학습하므로, 상위 계층의 의사 타겟은 Data2vec2보다 더 많은 음성 인식(ASR) 관련 정보를 포함합니다. LibriSpeech 데이터셋에서의 실험 결과, 제안된 모델은 최첨단 자가 지도 학습 모델인 Data2vec2보다 뛰어난 성능을 보였으며, test-clean과 test-other에서 각각 8.9%와 4.3%의 relative word error rate reduction(RERR)을 달성했습니다.