本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和SparkSQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrameAPI高度集成的SparkMLAPI。