李杰,快手资深语音算法专家,中国科学院自动化研究所博士。曾任微软(亚洲)互联网工程院语音科学家。2017 年加入快手,负责语音识别声学模型相关算法研究和产品落地,在国际主流语音会议上发表论文十余篇,主要研究方向包括语音识别、语音唤醒等。目前快手智能语音交互技术已经赋能多个产品和业务,包括小快直播间智能助理、快手音悦台、智能字幕、语音输入法、语音搜索等。
李杰,快手资深语音算法专家,中国科学院自动化研究所博士。曾任微软(亚洲)互联网工程院语音科学家。2017 年加入快手,负责语音识别声学模型相关算法研究和产品落地,在国际主流语音会议上发表论文十余篇,主要研究方向包括语音识别、语音唤醒等。目前快手智能语音交互技术已经赋能多个产品和业务,包括小快直播间智能助理、快手音悦台、智能字幕、语音输入法、语音搜索等。
智能语音技术在快手具有丰富的应用场景,一方面要对每天快手用户产生的海量语音数据进行内容分析,为接下来的信息安全、内容理解、广告与推荐等提供基础服务。另一方面,要赋能快手的众多产品,提升用户与产品交互的便利性和趣味性。大量多样化的场景和海量数据对语音识别的精度与效率提出了重大挑战。近年来,端到端语音识别技术以其框架简洁、高精度、高效率的优势,成为领域研究热点,短短几年经历了多次技术更新与迭代。本次分享将会介绍端到端语音识别技术的发展历程和最新进展,并结合快手业务,介绍快手团队在 SpeechTransformer 模型上进行的多项改进与落地实践。
1、端到端语音识别技术概述
2、快手 SpeechTransformer 模型的探索与实践
3、结语与未来展望