智能语音前沿技术

会议室:和美厅B
出品人:王育军

本专场将重点关注端到端智能语音交互、全双工、多模态等语音前沿技术,将邀请国内外一... 展开 >

专题出品人:王育军

小米语音技术负责人

2000 年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002 至 2004 年就职于 NEC 电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007 年到 2012 年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015 年就职于乐视,负责语音识别与自然语言理解技术。2017 年加入小米,负责语音识别与语音合成技术。

地点:和美厅B

专题:智能语音前沿技术

本专场将重点关注端到端智能语音交互、全双工、多模态等语音前沿技术,将邀请国内外一线技术专家为大家分享最新技术进展和实践经验,希望可以给大家带来新的启发。

by Daniel Povey

小米集团
语音首席科学家

by 陈伟

搜狗
AI 交互技术部总经理

by 李杰

快手
资深语音算法专家

智能语音技术在快手具有丰富的应用场景,一方面要对每天快手用户产生的海量语音数据进行内容分析,为接下来的信息安全、内容理解、广告与推荐等提供基础服务。另一方面,要赋能快手的众多产品,提升用户与产品交互的便利性和趣味性。大量多样化的场景和海量数据对语音识别的精度与效率提出了重大挑战。近年来,端到端语音识别技术以其框架简洁、高精度、高效率的优势,成为领域研究热点,短短几年经历了多次技术更新与迭代。本次分享将会介绍端到端语音识别技术的发展历程和最新进展,并结合快手业务,介绍快手团队在 SpeechTransformer 模型上进行的多项改进与落地实践。

1、端到端语音识别技术概述

  • 动机
  • 技术历程

2、快手 SpeechTransformer 模型的探索与实践

  • SpeechTransformer 模型
  • 模型改进与实践

3、结语与未来展望

听众受益

  • 了解端到端语音识别技术的前沿进展与现状;
  • 了解快手对 SpeechTransformer 模型的多项改进;
  • 了解快手在端到端语音识别技术上的落地实践。

by 贾磊

百度
语音首席架构师

by 陈云琳

出门问问
高级语音工程师

近些年来,随着深度学习的快速发展,端到端(End-to-End)语音合成得到了广泛的关注和研究。传统的语音合成声学模型训练的流程复杂,包括 label 设计、问题集设计、HMM-GMM 训练以及决策树聚类等一系列流程。而端到端的声学模型直接使用单一的深度神经网络模型进行建模,极大的降低了模型的复杂度。另一方面,基于神经网络的声码器(Vocoder)在性能上也逐渐超越基于信号理论的传统声码器。端到端声学模型和神经网络 Vocoder 虽然能够合成非常高质量的声音,却面临着计算开销大和使用成本高的问题。如何解决这些难题,有效地将这一系列新技术落地,是语音合成从业者当前面临的最大挑战。本报告将介绍出门问问近期在端到端语音合成系统上取得的研发成果以及在语音合成技术产品化和 ToB 行业落地的经验。

内容大纲

1、语音合成概述

  • 出门问问语音合成发展历程
  • 出门问问语音合成技术概要
  • 出门问问语音合成应用产品和 ToB 业务

2、出门问问技术最新进展

  • MeetVoice 端到端系统介绍
  • MeetParameter - 端到端合成框架介绍
  • MeetVocoder - 神经网络 Vocoder 框架介绍
  • MeetVoice 模型改进与实践
  • 小数据量端到端语音合成的挑战与解决方案
  • 端到端系统的最新研究

3、出门问问语音合成行业实践

  • 车载语音助手
  • 电话助手
  • 公众号文章音频播报

4、展望与总结

听众受益

  • 了解并探讨出门问问语音合成技术最新进展及方向;
  • 了解 TTS ToB 的技术难点和技术方案。

前沿亮点

  • 端到端语音合成系统如何落地;
  • 端到端系统如何在全 CPU 上做到工业级别的首帧低延迟。

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务小姐姐 Amy
或致电:+86-15615403186