포티투닷 | 42dot - We Are A Mobility AI Company

TF-GridNet: Making Time-Frequency Domain Models Great Again for Monaural Speaker Separation

Authors : Zhong-Qiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeong-Yeol Kim, Shinji Watanabe

Conference : ICASSP

Year Published : 2023

Topics : Speaker Separation

Abstract

TF-GridNet은 단일 마이크 환경에서 두 화자의 목소리를 효과적으로 분리하기 위해 설계된 모델입니다. 이 모델은 시간-주파수 영역에서 다중 경로 학습 구조를 채택하여, 프레임 내 스펙트럼 정보, 하위 대역 시간 정보, 전체 대역의 자기-어텐션을 결합함으로써 성능을 대폭 향상시켰습니다. 학습 과정에서는 SI-SDR 손실 함수에 더해 새로운 손실 항을 도입하여, 분리된 신호의 합이 원본 신호와 일치하도록 유도했습니다. 이를 통해 WSJ0-2mix 데이터셋에서 23.4 dB SI-SDR 성능을 달성하며 기존 최고 기록을 크게 상회하는 성과를 거두었습니다.