陈云琳,研究方向为语音合成,硕士就读期间曾在出门问问语音组实习,参与研发和上线出门问问第一代语音合成系统。毕业后加入微软,主要从事声学模型以及拼接系统的研究与优化。2018 年加入出门问问,研发并推动上线端到端语音合成系统 MeetVoice(Mobvoi End to End TTS Voice),大幅度提升语音合成质量,MeetVoice 目前已广泛应用在出门问问的车载、TicWatch、TicPods、魔音、小问秘书等多项产品和 ToB 业务中。
陈云琳,研究方向为语音合成,硕士就读期间曾在出门问问语音组实习,参与研发和上线出门问问第一代语音合成系统。毕业后加入微软,主要从事声学模型以及拼接系统的研究与优化。2018 年加入出门问问,研发并推动上线端到端语音合成系统 MeetVoice(Mobvoi End to End TTS Voice),大幅度提升语音合成质量,MeetVoice 目前已广泛应用在出门问问的车载、TicWatch、TicPods、魔音、小问秘书等多项产品和 ToB 业务中。
近些年来,随着深度学习的快速发展,端到端(End-to-End)语音合成得到了广泛的关注和研究。传统的语音合成声学模型训练的流程复杂,包括 label 设计、问题集设计、HMM-GMM 训练以及决策树聚类等一系列流程。而端到端的声学模型直接使用单一的深度神经网络模型进行建模,极大的降低了模型的复杂度。另一方面,基于神经网络的声码器(Vocoder)在性能上也逐渐超越基于信号理论的传统声码器。端到端声学模型和神经网络 Vocoder 虽然能够合成非常高质量的声音,却面临着计算开销大和使用成本高的问题。如何解决这些难题,有效地将这一系列新技术落地,是语音合成从业者当前面临的最大挑战。本报告将介绍出门问问近期在端到端语音合成系统上取得的研发成果以及在语音合成技术产品化和 ToB 行业落地的经验。
1、语音合成概述
2、出门问问技术最新进展
3、出门问问语音合成行业实践
4、展望与总结