大数据 -- Spark SQL

几年前，Hadoop/MapReduce在企业生产中大量使用，HDFS上积累了大量数据
由于MapReduce对于开发者而言使用难度较大，大部分开发者最熟悉的还是传统的关系型数据库，Hive应运而生
Hive提供了类似 SQL 的编程接口，HQL语句经过语法解析、逻辑计划、物理计划转化成MapReduce程序执行
- 使得开发人员很容易对HDFS上存储的数据进行查询和分析
Spark刚问世时，Spark团队也开发了 Shark 来支持用SQL语言来查询Spark的数据
- Shark的本质就是Hive ，它修改了Hive的内存管理模块，大幅优化了运行速度，是Hive的10~100倍
Shark对于Hive的依赖严重影响了Spark的发展，Spark想定义的是一个 统一的技术栈 和 完整的生态
- 依赖于Hive还制约了Spark各个组件的相互集成，Shark也无法利用Spark的特性进行深度优化
2014年7月1日，Spark团队将Shark交给Hive管理，转而开发Spark SQL
Spark SQL放弃了Shark的执行引擎（将SQL语句转化为Spark RDD），重新开发新的执行引擎
Spark SQL不仅将 关系型数据库的处理模式 和 Spark的函数式编程 相结合，还兼容多种数据格式
- 包括Hive、RDD、JSON文件、CSV文件等
Spark SQL的问世大大加快了Spark生态的发展

Spark SQL的架构

Spark SQL本质上是一个库，运行在Spark的核心执行引擎之上
Spark SQL提供类似SQL的操作接口，允许 数据仓库应用程序 直接获取数据，允许使用者通过 命令行 操作来交互地查询数据
Spark SQL还提供了 DataFrame API 和 DataSet API
- Java、Python、Scala的应用程序可以通过这两个API来 读取和写入RDD
使用Spark SQL会让开发者觉得好像在操作一个关系型数据库一样，而不是在操作RDD，优于原生的RDD API
与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了关于 数据结构 和 正在执行的计算 的更多信息
- 在内部，Spark SQL使用这些 额外的信息 来执行 额外的优化
- 虽然Spark SQL支持多种交互方式，但在 计算结果 时均 使用相同的执行引擎

DataFrame可以看作一种特殊的DataSet ，也是关系型数据库中表一样的结构化存储机制，也是分布式不可变的数据结构
DataFrame的 每一列并不存储类型信息 ，所以在 编译时并不能发现类型错误
DataFrame的每一行的类型固定为ROW，可以被当做DataSet[ROW]来处理，必须通过解析才能获取各列的值
对于DataSet，用类似 people.name 来访问，对于DataFrame，用类似 people.get As [String]("name") 来访问

RDD DataFrame DataSet 不可变性 Y Y Y 分区 Y Y Y Schema N Y Y 查询优化器 N Y Y API级别低高（底层基于RDD实现）高（DataFrame的扩展）是否存储类型 Y N Y 何时检测语法错误编译时编译时编译时何时检测分析错误编译时运行时编译时

RDD API在第一代Spark中就存在，是整个Spark框架的基石
为了方便熟悉关系型数据库和SQL的开发者使用，在RDD的基础上，Spark创建了DataFrame API
DataSet最早被加入Spark SQL是在Spark 1.6，在 DataFrame的基础 上添加了对数据的每一列的类型的限制
在Spark 2.0，DataFrame和DataSet 被统一 ，DataFrame作为DataSet[ROW]存在
- 在弱类型语言中，如Python，DataFrame API依然存在，但在Java中，DataFrame API已经没有了

DataFrame和DataSet的性能要比RDD更好
Spark程序运行时，Spark SQL中的查询优化器会对语句进行分析，并生成 优化过的RDD 在底层执行
场景：先对一堆数据进行GroupBy，再进行Filter，这 非常低效 ，因为并不需要对所有数据都GroupBy
- RDD API：只会 机械地按顺序执行
- DataFrame/DataSet API：Spark SQL的Catalyst优化器会将Filter操作和GroupBy操作 调换顺序 ，从而 提高执行效率

RDD和DataSet都是类型安全的，而DataFrame并不是类型安全的，因为DataFrame并不存储每一列的信息如名字和类型
使用DataFrame API，可以选择一个 不存在的列 ，只有在 运行时 才会被检测到，而使用DataSet API，在 编译时 就会被检测到