人工智能在文本、视频、语音、音乐等领域的最新发展和应用

所属专题:主会场

嘉宾 : 马维英 | 字节跳动副总裁人工智能实验室负责人

会议室 : 二层 2号会议厅

讲师介绍

主题演讲嘉宾:马维英

字节跳动副总裁 人工智能实验室负责人

马维英,现任字节跳动公司副总裁兼人工智能实验室负责人,带领团队在机器学习、计算机视觉、计算机图形学、语音和音乐、自然语言处理、个性化推荐和搜索等领域进行基础研究和核心技术开发。 他的团队所开发的技术通过字节跳动的产品(例如今日头条和抖音)已经在全球范围被数亿日活跃用户使用。他曾在世界级会议和学报上发表过逾300篇论文,并拥有160多项技术专利。他是电气电子工程师学会院士(IEEE Fellow)、美国计算机协会杰出科学家(ACM Distinguished Scientist)及中国“千人计划”专家。他是2008国际互联网大会(WWW)的程序委员会联合主席, 以及2011年国际信息检索大会(SIGIR)的联合主席。他曾经在诸多学术期刊编委会中任职, 包括ACM信息系统学刊 (TOIS),  ACM/Springer多媒体系统学报和《多媒体工具与应用》杂志等。他于2010年至2016年担任国际互联网大会(WWW)的 Steering Committee委员。2018年7月,马维英入选TOP100的CS计算机科学家,h-index 104,全球排名86,中国排名第2。 他于2010年获得台湾清华大学EECS学院的杰出校友荣誉,以及2013年美国加州大学圣芭芭拉分校电气和计算机工程系50周年的杰出讲座(Distinguished Lecture)荣誉。

在加入字节跳动之前,他从2001年到2017年2月在微软亚洲研究院工作,担任研究院常务副院长,领导在信息检索、自然语言处理、机器学习、互联网搜索技术、知识图谱和数据挖掘,多媒体分析和理解等方面的研究。他的团队开发许多关键核心技术并用于微软必应搜索引擎Bing和在线广告Ads Center,以及微软认知服务Cognitive Services,Exchange, SharePoint, Delve, Azure,微软小冰聊天机器人和问答系统。他还在GitHub开源了多项技术, 包括使得大规模机器学习任务具有高度可扩展性, 高效性和灵活性的分布式机器学习工具包Distributed Machine Learning Toolkit, 和基于内存的分布式大规模图数据处理引擎Microsoft Graph Engine, 以及让计算机理解自然语言所需要掌握的概念和知识图谱Microsoft Concept Graph。

他于1990年毕业于台湾国立清华大学电气工程系,后于1994年和1997年分别获得美国加州大学圣芭芭拉分校(University of California at Santa Barbara)电气和计算机工程系硕士和博士学位。

议题介绍

地点:二层 2号会议厅
所属专题:主会场

演讲:人工智能在文本、视频、语音、音乐等领域的最新发展和应用

字节跳动公司的使命是建立新一代全球信息平台,从内容创作、分发、互动和交流的每一个环节,用人工智能技术赋能,提升用户体验,促进人类信息与知识交流的效率与深度。例如,通过计算机视觉、自然语言理解和生成技术开发的自动写稿机器人,能够自动理解体育视频并产生新闻播报。通过人工智能辅助内容审核,能够处理每天海量用户生成的各种内容。通过计算机视觉技术在手机端的应用,包括人脸检测和关键点定位、通用物体检测和识别,图像分类、分割、智能化美颜美妆、人体姿态估计、手势识别、手指关节点定位、SLAM等,抖音赋能每个人都能创作出高质量和内容丰富的短视频。在音频内容创作方面,基于深度学习的语音合成系统,应用到新闻播报和小说听书。同时,我们还在积极探索个性化合成技术,包括模拟不同发音人的音色与风格等。音乐是具有高商业价值的内容形式,同时也是构成其它内容的重要元素,因此音乐生成也是我们探索的研究方向。

在这个演讲中,我将会介绍人工智能在文本、视频、语音、音乐的自动理解和生成技术的最新发展,以及在内容创作和交流上的许多新的应用。

听众受益:

1. 了解人工智能前沿技术趋势

2. 了解人工智能在计算机视觉、NLP、深度学习等领域的最新技术应用

本网站图片存储由七牛云独家支持