李元健,Databricks软件工程师。曾于2011年加入百度基础架构部,先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作,2017年转岗项目经理,负责百度分布式计算平台研发工作。2019年加入Databricks Spark团队,参与开源软件及Databricks产品研发。
李元健,Databricks软件工程师。曾于2011年加入百度基础架构部,先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作,2017年转岗项目经理,负责百度分布式计算平台研发工作。2019年加入Databricks Spark团队,参与开源软件及Databricks产品研发。
本次讲座将从数据科学通用API及计算引擎两个维度介绍Databricks在构建统一数据分析平台上的新一轮实践。讲座以统一数据分析的基本思路作为切入点,从Databricks Koalas和Delta两个系统的设计初衷到实现细节逐步展开,相信其中的设计和实践经验会对大家有所帮助。
演讲提纲:
一、分享Databricks在构建统一数据分析平台及产品的基本思路
二、Databricks实践经验解析
1. 数据工程与数据科学的统一:Koalas的设计初衷及实现细节解析
2. 流式与批量计算的统一:Delta架构及基本原理
三、统一计算引擎——Apache Spark 3.0亮点一览
听众收益:
1. 了解大数据统一分析平台研发中的常见痛点和可行解决方案
2. Databricks在构建统一数据分析平台、产品上实践经验