포티투닷 | 42dot - We Are A Mobility AI Company

Bridging the Gap between Audio and Text using Parallel-attention for User-defined Keyword Spotting

Authors : Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, and Joon Son Chung

Conference : IEEE Signal Processing Letters

Year Published : 2024

Topics : Keyword Spotting

Abstract

이 논문은 text enrollment을 기반으로 오디오 키워드를 정확하게 탐지하는 새로운 user-defined keyword spotting 프레임워크를 제안한다. 오디오 데이터는 텍스트에 비해 추가적인 acoustic 정보를 포함하고 있으므로, 두 modality 간에 차이가 존재한다. 이러한 문제를 해결하기 위해, 본 논문에서는 self- and cross-attention을 parallel architecture에서 활용하여 두 modality 내 및 간의 정보를 효과적으로 포착하는 ParallelKWS를 제시한다. 또한, 오디오와 텍스트 feature 간의 순차적 대응을 강제하는 phoneme duration-based alignment loss를 추가로 제안한다. 광범위한 실험 결과를 통해, 제안한 방법이 이전 연구에서 사용된 데이터셋 외에 추가 데이터를 사용하지 않고도 seen 및 unseen domain의 여러 benchmark dataset에서 state-of-the-art 성능을 달성함을 입증하였다.