Apache Kylin权威指南
Apache Kylin权威指南Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了目录推荐序推荐序二推荐序三推荐序四前言第1章 Apache Kylin概述1.1背景和历史1.2 Apache Kylin的使命1.2.1为什么要使用 Apache Kylin1.2.2 Apache Kylin怎样解决关键问题13 Apache Kylin的工作原理3.1维度和度量简介1.3.2Cube和 Cuboid1.3.3工作原理1.4 Apache Kylin的技术架构1.5 Apache Kylin的主要特点1.5.1标准SO接口1.5.2支持超大数据集53亚秒级响应1.54可伸缩性和高吞吐率1.5.5BI及可视化工具集成1.6与其他开源产品比较1.7小结第2章快速入门2.1核心概念2.1.1数据仓库、OLAP与BI2.1.2维度和度量2.1.3事实表和维度表2.1.4Cube、 Cuboid和 Cube segment22在Hive中准备数据2.2.1星形模型222维度表的设计2.2.3Hive表分区2.2.4了解维度的基数2.2.5 Sample Data23设计Cube2.3.1导入Hive表定义2.3.2创建数据模型2.3.3创建Cube24构建Cube2.4.1全量构建和增量构建242历史数据刷新24.3合并2.5查询Cube2.6SQL参考2.7小结第3章增量构建3.1为什么要增量构建3.2设计增量Cube3.2.1设计增量Cube的前提3.2.2增量Cube的创建33触发增量构建3.3.1 Web Gu触发332构建相关的 Rest Api34管理Cube碎片34.1合并 Segment34.2自动合并343保留 Segment3.4.4数据持续更新3.5小结第4章流式构建4.1为什么要流式构建4.2准备流式数据4.2.1数据格式4.2.2消息队列4.2.3创建 Schema4.3设计流式Cube4.3.1创建 Model4.3.2创建Cube4.4流式构建原理4.5蝕发流式构建4.5.1单次触发4.52自动化多次触发4.5.3出错处理4.6小结第5章查询和可视化5.1 Web GUI5.1.1查询5.1.2显示结果5.2 Rest API5.2.1杳询认证52.2查询请求参数52.3查询返回结果5.3 ODBC5.4 JDBC5.4.1获得驱动包5.4.2认证54.3URL格式5.44获取元数据信息5.5通过 Tableau访问 Kylin5.5.1连接 Kylin数据源5.52设计数据模型5.53通过Live方式连接554自定义SQL555可视化5.5.6发布到 Tableau server5.6 Zeppelin集成5.6.1 Zeppelin架构简介56.2 KylinInterpreter的工作原理563如何使用 Zeppelin访问 Kylin57小结第6章Cube优化6. Cuboid剪枝优化6.1.1维度的诅咒6..2检查 Cuboid数量6.1.3检查Cube大小6.1.4空间与时间的平衡62剪枝优化的工具62.1使用衍生维度6.2.2使用聚合组6.3并发粒度优化64 Row keys优化64.1编码64.2按维度分片64.3调整 Rowkeys顺序6.5其他优化6.5.1降低度量精度6.5.2及吋清理无用的 Segment6.6小结第7章应用案例分析7.1基本多维分析7.1.1数据集7.1.2数据导入7.1.3创建数据模型7.1.4创建Cube7.1.5构建Cube7.1.6SOL查询7.2流式分析7.2.1 Kafka数据源7.2.2创建数据表7.2.3创建数据模型7.2.4创建Cube7.2.5构建Cube7.2.6SOL查询7.3小结第8章扩展 Apache Kylin8.1可扩展式架构8.1.1工作原理8.1.2三大主要接口82计算引擎扩展8.2.1 EngineFactory8.2.2 MRBatch Engine28.2.3 BatchCubingJobBuilder28.2.4 IMRInput8.2.5 IMROutput283数据源扩展84存储扩展8.5聚合类型扩展8.5.1聚合的JSON定义8.52聚合类型工厂8.53聚合类型的实现8.6维度编码扩展8.6.1维度编码的JSON定义8.6.2维度编码工厂8.63维度编码的实现8.7小结第9章 Apache Kylin的企业级功能91身份验证91.1自定义验证9.1.2LDAP验证9.1.3单点登录92授权93小结第10章运维管理10.1安装和配置10.1.1必备条件
暂无评论