포티투닷 | 42dot - We Are A Mobility AI Company

TF-GridNet: Integrating Full- and Sub-Band Modeling for Speech Separation

Authors : Zhong-Qiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeong-Yeol Kim, Shinji Watanabe

Conference : IEEE/ACM TASLP

Year Published : 2023

Topics : Speech Separation

Abstract

이 연구는 기존 TF-GridNet 모델을 확장하여 다중 마이크 환경에서도 동작할 수 있도록 설계되었습니다. 이를 위해, 다중 프레임 Wiener 필터를 새롭게 제안하고 이를 빔포머와 결합하여 다중 채널 음성 처리의 성능을 획기적으로 향상시켰습니다. 이 확장된 모델은 울림 제거, 잡음 제거와 같은 다양한 음성 처리 작업에서도 최고 수준의 성능(SOTA)을 갱신했으며, 이를 통해 음성 처리 기술의 새로운 기준을 제시했습니다. 또한, 연구 성과와 함께 공개된 코드와 모델은 많은 연구자들에게 참고되고 인용되며 음성 처리 연구의 발전에 기여하고 있습니다.