:ApacheHadoop是目前分析分布式数据的首选工具,和大多数Java?2.0技术一样,是可扩展的。从Hadoop的MapReduce编程建模开始,学习如何用它来分析数据,满足大大小小的商业信息需求。Google在2001年发布图像搜索功能时,只有2.5亿索引图像,不到10年,这个巨大的搜索功能已经可以检索超过100亿个图像了,每分钟有35小时的内容上传到YouTube。据称,Twitter每天平均处理5500万tweet。今年早些时候,搜索功能每天记录6亿条查询记录。这就是我们讨论大数据的意义所在。如此大规模的数据一度仅限于大企业、学校和政府机构—这些机构有能力购买昂贵的超级计算机、能够