云栖大会 | Apache Spark 3.0 和 Koalas 最新进展
栏目:w66利来国际ios下载 发布时间:2019-09-30 01:01

原标题:云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

本材料来自2019-09-26在杭州举行的云栖大会的大数据 & AI 峰会分会。议题称号《New Developments in the Open Source Ecosystem: Apache Spark 3.0 and Koalas》,共享嘉宾李潇,Databricks Spark 研制总监。

下面是本次会议的视频(因为微信大众号的约束,只能发布小于30分钟的视频,完好视频和 PPT 请重视 过往回忆大数据 大众号并回复 spark_yq 获取。)

2019年对 Spark 社区来说是一个比较特别的年份。10年前,马铁为了协助自己的同学得到 Netflix 建议的 Netflix Prize 比赛百万美金,诞生了一个巨大的项目,这便是现在的 Apache Spark。

上面便是 Apache Spark 的开展前史。2019年09月将会发布 Apache Spark 3.0预览版,下一年年头将会发布 Apache Spark 3.0正式版。

国际级的知乎 stackoverflow 中当年 Spark 和 PySpark 排名都很靠前,10年累计排名 Apache Spark 榜首,Apache Hadoop 第二;未来 Apache Spark 和 PySpark 将会独占国际。

打开全文

Apache Spark 3.0 是社区共同努力的成果,大约开发了一年多。下面是 Apache Spark 3.0 的首要特性:

动态分区削减 自适应 Spark Graph 加快感应调度(GPU,详细拜见 Apache Spark 3.0 将内置支撑 GPU 调度,文末有福利) Spark on k8s DataSource API V2 ANSI SQL 兼容 SQL Hints Vectorization in SparkR JDK 11 Hadoop 3

Scala 2.12

Scala 2.12

下面首要介绍 Apache Spark 3.0 在查询方面的优化

在 Spark 2.x 里边加了根据价值的优化,可是这个并不体现的很好。首要有以下几个原因:

核算信息的缺失; 核算信息过期;

很难笼统出一个通用的 cost model。

很难笼统出一个通用的 cost model。

为了处理这些问题,Apache Spark 3.0 引入了根据 Runtime 的查询优化。


服务热线