王晓雷是海思图灵智能算法专家,在推荐系统、人机交互、多模态对话管理方向有丰富项目经验。曾为金融、零售、汽车等行业多家五百强公司提供算法咨询服务,致力于为企业量身打造端到端智能解决方案。目前专注于昇腾处理器的解决方案设计与生态建设。
王晓雷是海思图灵智能算法专家,在推荐系统、人机交互、多模态对话管理方向有丰富项目经验。曾为金融、零售、汽车等行业多家五百强公司提供算法咨询服务,致力于为企业量身打造端到端智能解决方案。目前专注于昇腾处理器的解决方案设计与生态建设。
作为当前计算密度最大的单芯片,昇腾910芯片依照着华为公司“全栈全场景”的智能战略,仍旧采用了与去年发布的昇腾310一样的达芬奇架构。众所周知,在深度学习领域,从框架到模型,从API到库都是高度定制化的。这一自研架构在带来更强的算力与更好的能效比的同时,在逐步优化使用体验并建立用户生态的过程中,也遇到了不少困难和挑战。
本次分享将尝试回答下面几个问题:
1. 为什么人工智能专用芯片具有强大的算力和能效比?
2. 达芬奇架构的加速原理是什么样子的?
3. 如果想要针对某种特定架构优化我的算法,使其达到性能最优,我可以采取什么策略?
在过去一年逐步完善人工智能芯片解决方案的具体实践中,我们也总结出了一些经验。本次演讲结合理论与实践,以深度学习中最常用的卷积算子优化为例,希望能够为大家在网络优化的道路上带来一些启发和帮助。
演讲提纲:
一、商业价值=数据+算法+算力
二、计算芯片加速理论
GPU
TPU
三、典型智能计算芯片加速原理
计算单元
存储系统
控制单元
指令集设计
四、加速实战:卷积算子
基于矩阵计算单元的矩阵运算
卷积算子参数定义和数据排布方式
输入特征图数据的格式转换
分块矩阵相乘
性能分析
五、总结
深度学习性能提升小秘诀
人工智能芯片的发展趋势
听众收益:
1. 技术上,结合硬件架构的发展趋势,通过对算法加速理论的讲解,帮助算法开发人员理解人工智能算法的加速原理,把握算法和硬件的发展趋势。
2. 业务上,将算法加速理论与硬件架构相结合,逐点解析卷积算子的实现,帮助听众掌握针对特定领域架构芯片的算法优化方法。