Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集。Spark由一系列解决不同种类问题的系统和编程库构成,包括流式计算Spark Streaming,SQL引擎Spark SQL,机器学习库MLLib以及图计算框架GraphX。