Spark 3.0 新特性抢先看

记得 Databricks 研发工程师王耿亮老师 去年在分享 Spark 新特性议题的时候，稍微透露了一些关于 Spark 3.0 版本特性的内容，但具体的性能细节可以关注今年 ASF 和 Apache Spark PMC 最终的发布信息。这里做一些简单的介绍，具体技术细节请关注 9 月 11 日深圳站 ArchSummit 全球架构师峰会演讲。

uiErmaB.png!web

Accelerator-aware Scheduler

作为 Project Hydrogen 的延续，在 Spark 3.0 版本里支持 GPU Aware Scheduling 调度，广泛用于加速特定应用，比如深度学习等。

自适应查询优化

这是 Databricks 和 Intel 中国团队在做的项目（ SPARK-31412 ），基于已完成的执行计划节点的统计数据，优化剩余的查询执行计划，它能够支持：动态合并小的 partition 减少 Reducer 的数量；将 Sort Merge Join 转换为 Broadcast Hash Join；动态分割相对比较大的 partition 从而更好地处理数据倾斜。以下图为例：

NZnmYjJ.png!web 这是一个典型的 Spark 任意操作过程，读取两个文件，而使用 Adaptive Execution 方法之后，将 Sort Merge Join 转换为 Broadcast Hash Join，性能也有了很大的提升。

Data Source API V2

发布 Data Source API，其设计比较合理，性能更稳定，批处理和流处理使用统一的 API。其背后的历史原因是，第一个版本的 Data Source API 在实现 Data Source 过程中不是很方便，后来做了 FileFormat。但是流处理的时候又使用另一套 API。所以社区花了很多时间把 API 都整合起来，并且增加了新的 Catalog plugin API( SPARK-31121 )。

Apache Spark 3.0 其他目标：

支持 JDK 11
动态分区剪枝 ( SPARK-11150 )
Redesigned pandas UDFs with type hints ( SPARK-28264 )

• 支持 Hadoop 3.x

• Hive execution 从 1.2.1 升级至 2.3.7

• Scala 2.12 GA

• 更加遵从 ANSI compliance

• Structured Steaming UI

Pandas DataFrame vs Spark DataFrame

UVzQf2y.png!web 很多数据科学家之前在学数据分析的时候使用 Python 的 Pandas，但是真正到了生产环境，Pandas 只能运行在一台机器上，而且是单线程，性能和可扩展性有限。这个时候需要转到 Spark，但是受到 API 区别，所以会有一些局限。

EVfq2e6.png!web 但是后来开源了 Koalas，目标是使用 Pandas API 可以直接运行在 Spark，能够支持数据科学家更好的无缝迁移到 Spark。

【活动推荐】

关于 Spark 3.0 新特性的解读，我们邀请王耿亮老师在今年 9 月 11 日 ArchSummit 全球架构师峰会（深圳站）上详细介绍，包括 Delta Lake 新功能介绍、设计思路细节、用户在使用过程中遇到的坑（案例），以及解决方法。感兴趣的可以点击查看会议官网了解详情。

Accelerator-aware Scheduler

自适应查询优化

Data Source API V2

Apache Spark 3.0 其他目标：

Pandas DataFrame vs Spark DataFrame

【活动推荐】

Recommend

40个适用于Linux管理员和开发人员的git命令（上）

Super Bootable 64

漫谈分布式系统（十一）：达成共识就是一致

拆解字节跳动海外游戏发行、电竞布局

梁建章爱上直播

阿里巴巴海外「安家」：84亿新加坡买楼，与世界500强做邻居

从只有1个人的公司到1年卖出1亿美金，S'well水杯是如何做到的

“股神”巴菲特清空航空股，国内投资者又该何去何从？

丰巢收费遭抵制：杭州硬核小区称损害业主利益将停用

Kafka单机部署-小手冰凉

About Joyk