Hadoop起源于Nutch项目。我们曾尝试构建一个开源的Web搜索引擎,但是始终无法有效地将计算任务分配到多台(也就寥寥几台)计算机上。直到谷歌公司发表GFS和MapReduce的相关论文,我们的思路才清晰起来。他们设计的系统已可精准地解决我们在Nutch项目中面临的困境。因此,我们(两个半天工作制的人)也尝试重建这些系统,将其作为Nutch的一部分。我们成功地在20多台机器上运行了Nutch。但是我们很快就意识到,只有在几千台机器上运行Nutch才能够应付Web的超大规模,但这个工作量远远不是两个半天工作制的开发人员能搞定的。几乎就在那个时候,雅虎公司也对这项技术产生了浓厚的兴趣,并迅速