本篇英文论文通过三个具体实例(WordCountSortedByKey,WordCountSortedbyValues和PageRank算法)来对比Hadoop和Spark在大数据应用中运行时间,从而观察这些研究实例随着的迭代计算次数的增加,其时间性能比率的变化和趋势。该课题不仅系统的论述和比较Hadoop和Spark的系统结构、运行原理及各自的生态系统特点,也包括怎样逐步调优系统性能,例如数据压缩类型,内存分配控制,数据分割等手段。实验数据结果表明,由于Spark平台主要基于分布式的内存计算,而Hadoop中的Mapreduce框架在每个map或reduce阶段存在回