当今世界,数据就是金钱。各公司都在竭力收集尽可能多的数据,并力图找出数据中隐藏的模式,进而通过这些模式获得收入。然而,如果未能使用收集到的数据,或者未能通过分析数据挖掘出隐藏的宝石,那数据就一文不值。当开始使用Hadoop构建大数据解决方案时,了解如何利用手中的工具并将这些工具衔接起来是最大的挑战之一。Hadoop生态系统中包括很多不同的开源项目。我们该如何选择正确的工具呢?大多数数据管理系统至少可以分为数据获取(DataIngestion)、数据存储(DataStorage)和数据分析(DataAnalysis)三个模块。这几个模块之间的信息流动可以用下图表示:数据获取系统负责连接起数据源和