GitHub上某位大牛JerryLead对Spark的理解,大量图示,生动形象,总共7个pdf,看完对spark的原理,运行机制以及后续性能调优有很大的帮助,这是第四个pdf,描述了shuffle的细节,对比了MapReduce与spark的shuffle过程,详解了Shufflewrite和shuffleread,以及一些典型transformation的shuffleread过程