Hadoop[1]是一个具有高扩展性、高可靠性、高容错性和高效性的开源软件系统,它已成为互联网、金融、生物信息学等领域进行大数据分析和处理的代表性云计算平台。它由Hadoop Distributed File System(HDFS)[2]和MapReduce[3]两部分组成,其中,MapReduce主要用来处理数据密集型数据,而HDFS则主要负责大数据的存储。