포티투닷 | 42dot - We Are A Mobility AI Company

Neural Speech Enhancement with Very Low Algorithmic Latency and Complexity via Integrated Full- and Sub-Band Modeling

Authors : Zhong-Qiu Wang, Samuele Cornell, Shukjae Choi, Younglo Lee, Byeong-Yeol Kim, Shinji Watanabe

Conference : ICASSP

Year Published : 2023

Topics : Speech Enhancement

Abstract

본 연구는 저지연(low latency) 음성 향상을 목표로 설계된 모델입니다. 이 모델은 LSTM을 기반으로 하여 전체 대역(Full-band)과 하위 대역(Sub-band) 모델링을 결합한 방식으로 STFT(단기 푸리에 변환) 영역에서 음성을 향상시킵니다. 낮은 알고리즘 복잡도와 작은 실행 버퍼를 유지하면서, 2ms 이내의 속도로 소음과 잔향이 있는 환경에서 음성을 실시간으로 향상시킬 수 있어 실시간 음성 처리가 필요한 환경에 최적화된 알고리즘입니다.