Spark的出现 Apache Spark: 1.一个大规模数据处理同一分析引擎 2.最初由美国加州破壳利大学的AMP实验室开发 3.基于内存计算的大数据并行计算框架 4.用于构建大型的、低延迟的数据分析应用程序 Spark的特点 1.速度快 采用先进的DAG调度程序 查询优化器 物理执行引擎 2.容易使用 提供了超过80种高级运算符 支持多种语言进行编程 Spark Shell交互式编程 3.完整强大的技术栈 SQL查询 流式计算 机器学习 图计算组件 4.运行模式多样 可运行与独立的集群模式中 可运行与Hadoop中 可以访问HDFS数据源 可以访问Hive数据源等等 Spark的优势: