本文来自于csdn,本文介绍了Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark可以直接对HDFS进行数据的读写,同样支持Sparkon YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核