Spark是一个由加州大学伯克利分校(UC BerkeleyAMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributeddatasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。Spark使用Scala开发,使用Mesos作为底层的调度框架,可以和hadoop和Ec2紧密集成,直接读取hdfs或S3的文件进行计算并把结果写回hdfs或