语音技术在小米的实践应用之路

所属专题:NLP和语音技术

嘉宾 : 王育军 | 小米语音技术负责人

讲师介绍

专题演讲嘉宾:王育军

小米 语音技术负责人

2000年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002至2004年就职于NEC电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007年到2012年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015年就职于乐视,负责语音识别与自然语言理解技术。2017年加入小米,负责语音识别与语音合成技术。

议题介绍

演讲:语音技术在小米的实践应用之路

语音技术,包括语音识别与合成等,经历了几十年的发展,恰逢人工智能时代的来临,对其应用场景做了重新定义。但是我们面临的问题从来没有变过:数据失配和模型假设。在本次演讲中,我将分享在小米,我们如何解决失配的问题,如何自动标注数据,以及我们如何在小米特有用户场景下进行产品和算法创新。我们在语音合成中也做了创新的尝试,利用语音识别辅助,端对端的技术取代传统文本处理,节省了繁杂的标注工作。

演讲提纲:

1. 小米语音是如何成长的?

电视->手机->音箱->儿童->车载->笔记本 

2. 语音技术中的自然语言应用

语音识别中采用了深度学习语言模型后,识别率绝对增长超过1%。尺寸小可做嵌入式使用。在语音合成中的文本分析,我们基于端到端网络结构,业内首次提出将端到端网络应用于合成前端,通过一个编解码网络,完成传统复杂前端中的多个模块的功能。通过多目标联合地并行训练,取得了媲美传统前端的性能。

3. 永远要突破算法的天花板

为什么语音算法可以在小米有所突破,发表顶级国际会议论文?不做空中楼阁。有实际产品需求,有用户场景,有强大的内测用户。

4. 语音应用的挑战

5. 小米过去20个月做语音的经验

听众收益:

1. 语音技术在智能家居环境中如何发挥作用

2. 了解如何快速将语音算法落地到产品

本网站图片存储由七牛云独家支持