本书讲述在流行的大数据分布式存储和计算平台 Hadoop 上设计实现数据仓库,将传统数据仓库建模与 SQL 开发的简单性与 大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、 Hadoop 及其生态圈的相关概念,使用 Sqoop 从关系数据库全量或增量抽取数据,使用 HIVE 进行数 据转换和装载处理,使用 Oozie 调度作业周期性执行,使用 Impala 进行快速联机数据分析,使用 Hue 将数据可视化,以及数据仓 库中的渐变维( SCD )、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问 题在 Hadoop