在GitHub上找到的,国内某大牛JerryLead对spark的理解,生动形象,看完这7个pdf,对spark的运行机制,原理,以及后续性能调优有很大的帮助,这是第二个pdf-Job的逻辑执行图,详细描述了一个Job如何生成RDD,会生成哪些RDD,如何建立RDD之间的联系,并给出了一些典型的 transformation() 的计算过程及数据依赖图