포티투닷 | 42dot - We Are A Mobility AI Company

An Empirical Study of Training Mixture Generation Strategies on Speech Separation: Dynamic Mixing and Augmentation

Authors : Shukjae Choi, Younglo Lee, Jihwan Park, Hyung Yong Kim, Byeong-Yeol Kim, Zhong-Qiu Wang, Shinji Watanabe

Conference : APSIPA

Year Published : 2022

Topics : Speech Separation

Abstract

본 연구는 음성 분리 모델의 성능 향상을 위한 효율적인 훈련 전략에 대해 다룹니다. 특히, 훈련 전략이 모델의 일반화 능력을 개선하는 데 중요한 역할을 한다는 점에 주목하였습니다. 기존의 미리 생성한 음성 mixture를 사용하는 대신, 동적 혼합(Dynamic Mixing, DM)이라는 데이터 증강 방법을 사용하여 훈련 데이터셋을 생성하는 방법을 기반으로 심도있는 분석을 진행했습니다. 그 결과, 학습 데이터가 제한된 상황에서 DM과 데이터 증강을 결합한 전략이 성능 향상에 매우 효과적임을 확인했습니다. 이 연구는 음성 분리의 실제 응용에서 훈련 모델의 일반화 성능을 크게 개선할 수 있는 학습 방법론을 제시합니다.