Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
Authors : Tan Dat Nguyen, Ji-Hoon Kim, Jeongsoo Choi, Shukjae Choi, Jinseok Park, Younglo Lee, Joon Son Chung
Conference : ICASSP
Year Published : 2024
Topics : Speech Processing
이 논문의 목표는 codec-based 음성 합성 시스템의 음성 품질에 최소한의 손실을 주면서 추론 속도를 가속화하는 것이다. 우리는 추가 학습 없이도 추론 단계에서 속도와 품질 간의 유연한 균형 조정을 가능하게 하는 향상된 추론 방법을 제안한다. 핵심 아이디어는 multi-prediction heads를 사용하여 AR(autoregressive) 모듈의 추론 단계마다 여러 개의 토큰을 예측함으로써, 헤드의 수가 증가할수록 합성 시간이 선형적으로 감소하도록 하는 것이다. 더불어, 본 논문에서는 각 디코딩 단계에서 생성된 토큰들의 최적 시퀀스를 선택하기 위해 Viterbi 알고리즘을 활용하는 새로운 speculative decoding 기법을 도입한다. 실험 결과, 제안한 방법은 기준 모델에 비해 각 토큰을 예측하는 데 걸리는 시간을 4배에서 5배 정도 단축시키면서도 음성 명료도 측면에서 품질 손실은 최소하거나 오히려 개선되는 효과를 보인다. 관련 오디오 샘플은 다음 링크에서 확인할 수 있다: multpletokensprediction.github.io/multipletokensprediction.github.io/