什么是Hadoop?Google为自己的业务需要提出了编程模型MapReduce和分布式文件系统GoogleFileSystem,并发布了相关论文(可在Google Research的网站上获得:GFS、MapReduce)。DougCutting和Mike Cafarella在开发搜索引擎Nutch时对这两篇论文做了自己的实现,即同名的MapReduce和HDFS,合起来就是Hadoop。MapReduce的Dataflow如下图,原始数据经过mapper处理,再进