포티투닷 | 42dot - We Are A Mobility AI Company

Boosting Unknown-number Speaker Separation With Transformer Decoder-based Attractor

Authors : Younglo Lee, Shukjae Choi, Byeong-Yeol Kim, Zhong-Qiu Wang, Shinji Watanabe

Conference : ICASSP

Year Published : 2024

Topics : Speech Separation

Abstract

화자의 수를 알지 못하는 상황에서의 혼합음을 분리할 수 있는 새로운 음성 분리 모델을 제안합니다. 제안하는 모델은 1) 입력 신호의 spectro-temporal 패턴을 분석할 수 있는 dual-path 처리 블록, 2) 미지의 수의 화자들을 처리할 수 있는 Transformer Decoder-based Attractor (TDA) 계산 모듈, 그리고 3) 화자 간 관계를 모델링 할 수 있는 triple-path 처리 블록을 쌓은 구조로 이루어져 있습니다. 제안하는 모델은 기존 문헌에서 보고된 최고의 성능을 능가하며, 단일 모델로 2명 및 3명의 화자 혼합음을 분리할 때 각각 WSJ0-2mix와 3mix에서 24.0 dB와 23.8 dB의 ∆SI-SDR을 달성하였습니다. 또한, 제안하는 모델은 최대 5명의 화자가 포함된 혼합음의 분리와 화자 수 예측에서 뛰어난 성능 및 일반화 능력을 보여줍니다. (샘플 페이지: https://42speech.github.io/septda/)