HDFS为适用于通用硬件的分布式文件系统,被设计作为Hadoop的组成部分。Hive则是建立在Hadoop之上的数据仓库工具,能够将结构化数据文件映射成数据库表,并提供简单的SQL查询功能,将SQL语句转换成MapReduce任务执行。其优势在于低学习成本,能够快速实现简单的MapReduce统计,无需专门开发应用,非常适合数据仓库的统计分析。Spark则是专为大规模数据处理设计的快速通用计算引擎,是开源的类Hadoop MapReduce的通用并行框架,保留了MapReduce的优点,但不同之处在于其作业中间输出结果可以保存在内存中,减少了对HDFS的读写需求,更适用于需要迭代的算法。但在使用中需要注意内存的使用情况,避免内存溢出问题。