Hive是一个以ApacheHadoop为基础的数据仓储基础设施。Hadoop为数据的存储和运行在商业机器上提供了可扩展和高容错的性能。 Hive的设计目标是使得数据汇总更加简单和针对大容量数据的查询和分析。它提供SWL来使得用户可以更简单地查询、汇总和数据分析。同时,Hive的SQL为用户提供了多种地方来融合他们自己的方法实现自定义分析,例如UserDefinedFunctions(UDFs)。