포티투닷 | 42dot - We Are A Mobility AI Company

Masked Token Similarity Transfer for Compressing Transformer-Based ASR Models

Authors : Euntae Choi, Youshin Lim, Byeong-Yeol Kim, Hyung Yong Kim, Hanbin Lee, Yunkyu Lim, Seung Woo Yu, Sungjoo Yoo

Conference : ICASSP

Year Published : 2023

Topics : Speech Recognition

Abstract

최근 transformers 기반의 자기 지도 학습(self-supervised) 음성 인식 (ASR) 모델들이 최고의 성능을 보이고 있지만, 이들의 크기는 하드웨어 자원이 부족한 환경에서 훈련하거나 엣지 디바이스에 배포하기에는 너무 큽니다. 물론 Knowledge distillation (KD)을 사용하여 모델 크기를 줄일 수 있습니다. 그러나 teacher와 student 네트워크의 embedding dimension을 다른 값으로 설정하면 더 나은 성능을 위해 token embeddings를 전이(transfer)하기가 어렵습니다. 이 문제를 완화하기 위해, 우리는 student가 teacher의 prediction vector를 모방하는 새로운 KD 방법을 제안합니다. 이 방법은 제안된 masked token similarity transfer (MTST) loss 하에서, 토큰과 다른 마스킹(masking)되지 않은 토큰들 간의 시간적 관계를 dimension-agnostic token similarity vector로 인코딩합니다. fine-tuned teacher를 사용하는 전이 학습 설정 하에서, 제안된 방법은 student의 모델 크기를 teacher의 28.3%로 줄이면서 LibriSpeech corpus의 test-clean 서브셋에서 단어 오류율이 4.93%로 이전 연구들을 능가합니다.