spark是一种快速、通用、可扩展的大数据分析引擎。Spark核心的概念是ResilientDistributedDataset(RDD):一个可并行操作的有容错机制的数据集合。有2种方式创建RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他Hadoop数据格式的数据源。