Ta上传的资源 (0)

项目迭代中用Impala逐步替换原有的Hive作为查询组件,速度有了脱胎换骨的飞跃。但在把原先按列存储的表转换成两个按行存储的表之后,联表查询的表现不那么给力了(原先对Hive的十倍速度优势变成了两倍)。

Hive表分区,里面有比较详细的Hive表分区方法,希望能够有所帮助。

对于复杂的查询统计类需求,如果直接基于HBaseAPI来实现,性能非常差,或者,可以通过实现MapReduce程序来进行查询分析,这也继承了MapReduce所具备的延迟性。