技术专栏

TECHNICAL COLUMN

Spark比拼Flink:下一代大数据计算引擎之争,谁主沉浮?

做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就不得不提 Spark 和 Flink。Spark 从 2014 年左右开始迅速流行,刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外,还提出了用一个统一的引擎支持批处理、流处理、交互式查询、机器学习等常见的数据处理场景。凭借高性能和全面的场景支持,Spark 早已成为众多大数据开发者的最爱。

了解更多
我们从爬取1000亿个网页中学到了什么?

现如今,爬取网页看起来似乎是一件很简单的事。有很多开源框架或库、可视化爬取工具和数据提取工具,利用这些工具可以很容易地从网站上爬取数据。但是,当你想大规模爬取网站时,事情就变得棘手起来。

了解更多
SQL足以解决你的问题,别动不动就机器学习

ML/AI 当然有它们的用武之地,各大科技公司已经证明了这些技术的有效性。但是,在很多情况下,你根本不需要机器学习,只用 SQL 就够了。

了解更多
深度学习的关键:无监督深度学习简介(附Python代码)

在这篇文章中,我们用一个直观的案例研究概述了无监督深度学习的概念。并且详解了在 MNIST 数据集上进行无监督学习的代码,包括 K-Means、自编码器以及 DEC 算法。

了解更多
陈天奇团队推出开源AI芯片栈VTA,降低芯片设计门槛

7月12日,陈天奇团队推出 Versatile Tensor Accelerator(VTA,发音为 vita),这是一种开放、通用、可定制的深度学习加速器。VTA是一种可编程加速器,提供了 RISC风格的编程抽象来描述张量级的操作。

了解更多
如何将Python自然语言处理速度提升100倍:用spaCy/Cython加速NLP

去年我们发布了基于 Python 的共指解析包之后,社区反馈非常热烈,大家开始在各式应用中使用它,有些应用场景与我们原来的对话用例非常不一样。

了解更多
Hadoop老矣,为什么腾讯还要花精力在其开源发布上?

腾讯主导开源大数据平台Apache Hadoop 2.8.4新版本发布,在国内外纷纷唱衰Hadoop的论调中,为什么腾讯还要花费这么大精力去主导其开源版本发布?

了解更多
解读现代存储系统背后的经典算法

本文详细剖析了两种被大多数现代数据库使用的存储系统设计方法,即针对读操作优化的 B 树,以及针对写操作优化的 LSM 树,并介绍了两种方法的一些用例和权衡考虑。

了解更多
99%的人并不知道国内人脸监控已经达到什么水平

刷脸登机、刷脸乘火车、刷脸办证、刷脸取款,现在又来一个刷脸上厕所,你知道你的脸用处这么多吗?

了解更多
Spark团队开源新项目MLflow发布0.2版本,内置TensorFlow集成

Spark团队正式宣布推出 MLflow 0.2 版本,这一版本包含了由内部客户和开源用户提出的一些最被期待的功能。

了解更多
剑桥AI全景报告出炉:全球AI可用人才仅3千,中美将争抢台韩半导体公司

在本报告中,我们将重点从过去 12 个月中 AI 所取得的进步来一窥其发展状况。这份报告汇集了我们看到的可能引发关于 AI 讨论和代表 AI 未来发展方向的最有趣的事实。

了解更多
如何成为一名成功的机器学习博士?

纽约大学的助理教授 Krzysztof J. Geras 对于想在机器学习领域成功取得博士学位的学生,给出了自己的建议。

了解更多
Apollo 3.0来了!百度自动驾驶硬件系统全解读

百度 Apollo 3.0 发布在即,本期 AI 前线社群分享我们很高兴邀请到了百度自动驾驶技术部高级产品经理王石峰,为我们带来《自动驾驶汽车硬件系统概述》的干货分享。

了解更多
如何从零开始搭建知识图谱?

本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释。

了解更多
Facebook如何在4年间全面转向Python3?

在今年的PyCon 2018会议上,Facebook产品工程师Jason Fried讲述了该公司在过去四年时间里,Python 3从几乎无人问津到成为该公司主流Python版本的全过程。

了解更多
吴恩达团队提出倒计时回归模型:用AI技术预测病患死亡时间

近日,斯坦福大学 Andrew Ng 团队开发出了一种使用人工智能来预测病人死亡时间的系统,科学家希望该系统可以为病人提供更好的临床关怀。

了解更多
这是我看过解释TensorFlow最透彻的文章!

Tensorflow 发布已经有三年,如今它已成为深度学习生态系统的基石。然而对于初学者来说它并不怎么简单易懂。

了解更多
独家揭秘:腾讯千亿级参数分布式ML系统无量背后的秘密

千亿参数规模的模型已经被业界证明能够有效提高业务效果。如何高效训练出这样的模型?

了解更多
李飞飞团队提出OpenTag模型:减少人工标注,自动提取产品属性值

AI 前线第 37 篇论文解读,给大家带来的是李飞飞团队最新提出的 OpenTag 模型论文,OpenTag 是目前第一个端到端的开放式属性值提取框架。

了解更多
搭建容易维护难!谷歌机器学习系统血泪教训

本文作者表示,希望这篇论文能够为在生产环境中采用机器学习系统的开发者与维护者提供一些实用建议。

了解更多
本网站图片存储由七牛云独家支持