李珂,2010年博士毕业于美国德州农工大学,主攻数据挖掘、统计学习方向。加入vivo前在华为大数据产品部任首席数据科学家,负责金融行业的数据挖掘解决方案设计和落地。加入vivo后组建了互联网业务的AI算法组,现在主要负责广告、推荐、搜索、NLP、图像算法。现在这些算法已广泛支撑vivo浏览器、应用商店、游戏中心、i音乐等APP。
李珂,2010年博士毕业于美国德州农工大学,主攻数据挖掘、统计学习方向。加入vivo前在华为大数据产品部任首席数据科学家,负责金融行业的数据挖掘解决方案设计和落地。加入vivo后组建了互联网业务的AI算法组,现在主要负责广告、推荐、搜索、NLP、图像算法。现在这些算法已广泛支撑vivo浏览器、应用商店、游戏中心、i音乐等APP。
DNN是广告/推荐CTR预估的重要技术。在今年以前,企业要从LR,FM迁到DNN上时需要自己编写DNN的训练和实时预测代码。这种办法对算法团队的能力要求高,上线周期长,算法迭代的成本也高。 今年年初TensorFlow cluster模式和TensorFlow serving为企业引入DNN提供了一个便捷的方案。当然在一个开源软件和一个能够稳定运行,支持快速算法迭代的生产系统之间还是存在着一个巨大的gap的。
本次分享将介绍vivo如何填补这个gap,搭建一个每日能够稳定运行每日3000万日活,超百亿次预估的系统。其中的内容包括硬件选择(GPU or CPU,CPU内存比)、TensorFlow分布式方案的选择(Docker or Hadoop)、TensorFlow HA方案的选择、TensorFlow在训练大规模模型的坑(HDFS IO等)、如何设计网络减少DNN的线上计算量、基于serving的线上预测服务的架构等。
1. 减少未来有意用TensorFlow进行大规模机器学习的听众踩的坑;
2. 硬件选购的经验;
3. 一些CTR预估中DNN的trick。