地点:第五会议厅A

专题:分论坛

by 李鑫

百度
数据众包服务平台研发负责人
如何快捷有效地获取海量数据并使其可被机器识别分析

大数据时代下,广泛面临着数据获取、加工的难题。本议题主要分享探讨如何通过众包模式,快捷有效地获取到海量原始数据,并且将非结构化的原始数据加工处理为机器可以识别分析的有价值数据。

听众受益

1.  AI时代面临的数据困扰及应对办法;
2. 数据众包服务落地应用场景介绍。

by 张清

浪潮
AI首席架构师
从0到1快速构建端到端AI计算系统及实践案例

随着AI在越来越多的行业开始应用,越来越多的用户希望能快速构建AI系统,实现应用落地,其面临着大规模数据处理、模型精度与训练性能、大规模计算平台架构等挑战。本报告将从工程实践的角度给出从无到有、从0到1快速构建端到端的AI计算系统的设计方法,具体涉及数据预处理问题及应用思路、模型快速构建方法与实际案例分享、计算框架选择、训练性能及实际优化案例、训练平台与推理平台架构等。

by 李珂

vivo
互联网算法团队负责人
借助TensorFlow在CTR预估中快速落地DNN

DNN是广告/推荐CTR预估的重要技术。在今年以前,企业要从LR,FM迁到DNN上时需要自己编写DNN的训练和实时预测代码。这种办法对算法团队的能力要求高,上线周期长,算法迭代的成本也高。 今年年初TensorFlow cluster模式和TensorFlow serving为企业引入DNN提供了一个便捷的方案。当然在一个开源软件和一个能够稳定运行,支持快速算法迭代的生产系统之间还是存在着一个巨大的gap的。

本次分享将介绍vivo如何填补这个gap,搭建一个每日能够稳定运行每日3000万日活,超百亿次预估的系统。其中的内容包括硬件选择(GPU or CPU,CPU内存比)、TensorFlow分布式方案的选择(Docker or Hadoop)、TensorFlow HA方案的选择、TensorFlow在训练大规模模型的坑(HDFS IO等)、如何设计网络减少DNN的线上计算量、基于serving的线上预测服务的架构等。

听众受益

1. 减少未来有意用TensorFlow进行大规模机器学习的听众踩的坑;
2. 硬件选购的经验;
3. 一些CTR预估中DNN的trick。

by 王兴星

美团点评
商业技术负责人
从XGB到LGB:美团外卖树模型的迭代之路

互联网企业中,分类是个较为常见的问题,例如:流量转化、变现遇到的点击预估,Query的分类等。使用的模型通常分为两大类:
1. 广义线性模型:典型的是LR/FTRL等,适合离散对特征;
2. 非线性模型:典型的NN/树模型,适合连续特征。

实际应用中应该如何选择呢?如果特征体系中连续类型特征较多,一般选择非线性模型。在美团的O2O场景下,对应用户决策影响大较多为连续类型特征,例如店铺评分\店铺单均价\店铺距离\平均配送时长等,所以早期集团内大部分应用主要以树模型为主。

从2013年到2017年,美团外卖的订单量增长10+倍。本议题将节后业务的特点及数据飞速增长讲解背后树模型迭代过程。 

听众受益

1. 了解O2O的业务特点;
2. 理解线性模型、非线性模型的优缺点和适用场景;
3. 了解树模型的最新的研究成果及其工业落地经验。