포티투닷 | 42dot - We Are A Mobility AI Company

Learning Contextualized Representation On Discrete Space Via Hierarchical Product Quantization

Authors : HYUNG YONG KIM, BYEONG-YEOL KIM, YUNKYU Lim, JIHWAN PARK, JINSEOK PARK, YOUSHIN LIM, SEUNG WOO YU, HANBIN LEE

Conference : ICASSP

Year Published : 2024

Topics : Speech Recognition

Abstract

자기지도 학습(Self-supervised learning)은 최근 다양한 음성 처리 응용 분야에서 큰 성공을 거두고 있습니다. 최근 연구들은 연속 공간에서의 타겟(continuous targets)을 활용한 사전 학습이 음성 관련 다운스트림 작업의 성능을 개선하는 데 중요한 역할을 한다고 보고하고 있습니다. 하지만 연속공간에서의 타겟과는 달리, 불안정한 학습으로 인해 이산 공간(discrete space)에서 문맥화된 타겟(contextualized targets)을 생성하는 것은 도전적인 과제입니다. 이를 해결하기 위해, 우리는 계층적 양자화기(hierarchical product quantizer)를 새롭게 도입하였습니다. 이는 양자화된 타겟의 가능한 경우의 수를 줄이고, 모든 코드북(codebook)에 대해 다양성 손실(diversity loss)을 적용하여 모드 붕괴(mode collapse)를 방지함으로써 복수 레이어의 특징(multi-layer features)을 완전히 활용할 수 있도록 합니다. 분석을 통해서 제안된 양자화기와 문맥화된 이산 타겟의 효과를 확인했습니다. 감독 학습 기반 음성인식에서, 제안된 모델은 wav2vec2를 능가했으며 data2vec과 유사한 결과를 보였습니다. 또한, 비지도 학습 기반 음성인식 (unsupervised automatic speech recognition, UASR) 에서는 제안된 방법이 두 가지 기준 모델을 뛰어넘는 성과를 나타냈습니다.