Spark是第一个脱胎于该转变的快速、通用分布式计算范式, 并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型,可以涵盖广泛的工作流,这些工作流之前被实现为 Hadoop之上的特殊系统。Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速(就如同使用Python解释器,与集群进行交互一样)。 缓存同时提升了迭代算法的性能,这使得Spark非常适合数据理论任务,特别是机器学习。