Spark是一种开源集群计算环境,对比Hadoop有更优秀的表现。Spark利用内存分析数据集和优化迭代传输工作负载的方式,提供交互式查询。本文档详细整理了Spark的基础知识,包括Scala语言实现,与Hadoop的不同之处,以及Spark的通用引擎,等等。无论你是想完成SQL查询、文本处理、还是机器学习,Spark都能适用。阅读该文件,你将能打牢关于Spark的基础知识,帮助你为日后深入学习做好准备。