本专场将重点关注端到端智能语音交互、全双工、多模态等语音前沿技术,将邀请国内外一... 展开 >
2000 年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002 至 2004 年就职于 NEC 电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007 年到 2012 年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015 年就职于乐视,负责语音识别与自然语言理解技术。2017 年加入小米,负责语音识别与语音合成技术。
本专场将重点关注端到端智能语音交互、全双工、多模态等语音前沿技术,将邀请国内外一线技术专家为大家分享最新技术进展和实践经验,希望可以给大家带来新的启发。
智能语音技术在快手具有丰富的应用场景,一方面要对每天快手用户产生的海量语音数据进行内容分析,为接下来的信息安全、内容理解、广告与推荐等提供基础服务。另一方面,要赋能快手的众多产品,提升用户与产品交互的便利性和趣味性。大量多样化的场景和海量数据对语音识别的精度与效率提出了重大挑战。近年来,端到端语音识别技术以其框架简洁、高精度、高效率的优势,成为领域研究热点,短短几年经历了多次技术更新与迭代。本次分享将会介绍端到端语音识别技术的发展历程和最新进展,并结合快手业务,介绍快手团队在 SpeechTransformer 模型上进行的多项改进与落地实践。
1、端到端语音识别技术概述
2、快手 SpeechTransformer 模型的探索与实践
3、结语与未来展望
近些年来,随着深度学习的快速发展,端到端(End-to-End)语音合成得到了广泛的关注和研究。传统的语音合成声学模型训练的流程复杂,包括 label 设计、问题集设计、HMM-GMM 训练以及决策树聚类等一系列流程。而端到端的声学模型直接使用单一的深度神经网络模型进行建模,极大的降低了模型的复杂度。另一方面,基于神经网络的声码器(Vocoder)在性能上也逐渐超越基于信号理论的传统声码器。端到端声学模型和神经网络 Vocoder 虽然能够合成非常高质量的声音,却面临着计算开销大和使用成本高的问题。如何解决这些难题,有效地将这一系列新技术落地,是语音合成从业者当前面临的最大挑战。本报告将介绍出门问问近期在端到端语音合成系统上取得的研发成果以及在语音合成技术产品化和 ToB 行业落地的经验。
1、语音合成概述
2、出门问问技术最新进展
3、出门问问语音合成行业实践
4、展望与总结