●译者序 推荐序 关于作者 关于技术审核人员 前言 部分 概述 章 数据导论 1.1 探索数据 1.2 什么是企业数据 1.3 企业数据管理 1.4 大数据相关概念 1.5 数据与企业的相关性 1.6 数据质量 1.7 企业中数据如何存放 1.8 企业现状 1.9 企业数字化转型 1.10 数据湖用例启示 1.11 总结 第2章 数据湖概念概览 2.1 什么是数据湖 2.2 数据湖如何帮助企业 2.3 数据湖是如何工作的 2.4 数据湖与数据仓库的区别 2.5 数据湖的构建方法 2.6 Lambda架构驱动的数据湖 2.7 总结 第3章 Lambda架构:一种数据湖实现模式 3.1 什么是Lambda架构 3.2 Lambda架构简史 3.3 Lambda架构 的原则 3.4 Lambda架构的组件 3.5 Lambda架构的完整工作原理 3.6 Lambda架构的优势 3.7 Lambda架构的劣势 3.8 Lambda架构技术概览 3.9 应用Lambda 3.10 Lambda架构运行范例 3.11 Kappa架构 3.12 总结 第4章 数据湖中的Lambda应用 4.1 Hadoop发行版本介绍 4.2 影响企业大数据技术栈选择的因素 4.3 批处理层与数据处理 4.4 服务层 4.5 总结 第二部分 数据湖的技术组件 第5章 基于Apache Sqoop的批量数据获取 5.1 数据湖背景中的数据获取 5.2 为什么使用Apache Sqoop 5.3 Sqoop的功能 5.4 Sqoop connector 5.5 Sqoop对HDFS的支持 5.6 Sqoop运行范例 5.7 适合使用Sqoop的场景 5.8 不适合使用Sqoop的场景 5.9 实时Sqooping是否可行 5.10 其他选项 5.11 总结 第6章 基于Apache Flume的流式数据获取 6.1 数据获取 6.2 为什么使用Flume 6.3 Flume的架构原则 6.4 Flume架构 6.5 Flume事件——流式数据 6.6 Flume Agent 6.7 Flume Source 6.8 Flume Channel 6.9 Flume Sink 6.10 Flume配置 6.11 Flume事务管理 6.12 Flume的其他组件 6.13 上下文路由 6.14 Flume运行范例 6.15 适合使用Flume的场景 6.16 不适合使用Flume的场景 6.17 其他选项 6.18 总结 第7章 使用Apache Kafka构建消息层 7.1 数据湖背景中的消息层 7.2 为什么使用Apache Kafka 7.3 Kafka的架构 7.4 其他Kafka组件 7.5 Kafka编程接口 7.6 生产者和消费者的可靠性 7.7 Kafka的安全性 7.8 Kafka作为面向消息的中间件 7.9 Kafka与水平可扩展架构 7.10 Kafka连接 7.11 Kafka运行范例 7.12 适合使用Kafka的场景 7.13 不合适使用Kafka的场景 7.14 其他选项 7.15 总结 第8章 使用Apache Flink处理数据 8.1 数据湖背景中的数据摄取层 8.2 为什么使用Apache Flink 8.3 Flink的工作原理 8.4 Flink的API 8.5 Flink运行范例 8.6 适合使用Flink的场景 8.7 不适合使用Flink的场景 8.8 其他选项 8.9 总结 第9章 使用Apache Hadoop存储数据 9.1 数据湖背景中的数据存储和Lambda批处理层 9.2 为什么使用Hadoop 9.3 Hadoop的工作原理 9.4 Hadoop生态系统 9.5 Hadoop发行版 9.6 HDFS和数据格式 9.7 Hadoop用于近实时应用 9.8 Hadoop部署模式 9.9 Hadoop运行范例 9.10 不适合使用Hadoop的场景 9.11 其他选项 9.12 总结 0章 使用Elasticsearch存储全文索引 10.1 数据湖背景中的数据存储层与Lambda快速处理层 10.2 什么是Elasticsearch 10.3 为什么使用Elasticsearch 10.4 Elasticsearch的工作原理 10.5 Elastic Stack 10.6 Elastic Cloud 10.7 Elasticsearch DSL 10.8 Elasticsearch中的节点 10.9 Elasticsearch与关系数据库 10.10 Elasticsearch生态系统 10.11 Elasticsearch部署选项 10.12 Elasticsearch Client 10.13 Elasticsearch用于快速流式处理 10.14 Elasticsearch作为数据源 10.15 Elasticsearch用于内容索引 10.16 Elasticsearch与Hadoop 10.17 Elasticsearch运行范例 10.18 适合使用Elasticsearch的场景 10.19 不适合使用Elasticsearch的场景 10.20 其他选项 10.21 总结 第三部分 将所有技术整合在一起 1章 数据湖组件集成 11.1 数据湖的学习进程 11.2 数据湖架构的核心原则 11.3 企业数据湖面临的挑战 11.4 企业对数据湖的期望 11.5 数据湖的其他用途 11.6 了解更多关于数据存储的信息 11.7 更多关于数据处理的知识 11.8 数据安全 11.9 数据加密 11.10 元数据管理和治理 11.11 数据审计 11.12 数据可追溯性 11.13 了解更多服务层细节 11.14 总结 2章 数据湖用例建议 12.1 在企业中推行网络安全实践 12.2 深入了解企业的客户 12.3 提升仓储管理效率 12.4 品牌创建与企业营销 12.5 为客户提供更个性化的服务 12.6 让物联网数据触手可及 12.7 更实用的数据归档 12.8 现有的数据仓库基础设施 12.9 实现电信安全和法规遵从 12.10 总结 内容虚线 内容简介 本书分为三个主要部分。靠前部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的很新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的很后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。 的原则 3.4 Lambda架构的组件 3.5 Lambda架构的完整工作原理 3.6 Lambda架构的优势 3.7 Lambda架构的劣势 3.8 Lambda架构技术概览 3.9 应用Lambda 3.10 Lambda架构运行范例 3.11 Kappa架构 3.12 总结 第4章 数据湖中的Lambda应用 4.1 Hadoop发行版本介绍 4.2 影响企业大数据技术栈选择的因素 4.3 批处理层与数据处理 4.4 服务层 4.5 总结 第二部分 数据湖的技术组件 第5章 基于Apache Sqoop的批量数据获取 5.1 数据湖背景中的数据获取 5.2 为什么使用Apache Sqoop 5.3 Sqoop的功能 5.4 Sqoop connector 5.5 Sqoop对HDFS的支持 5.6 Sqoop运行范例 5.7 适合使用Sqoop的场景 5.8 不适合使用Sqoop的场景 5.9 实时Sqooping是否可行 5.10 其他选项 5.11 总结 第6章 基于Apache Flume的流式数据获取 6.1 数据获取 6.2 为什么使用Flume 6.3 Flume的架构原则 6.4 Flume架构 6.5 Flume事件——流式数据 6.6 Flume Agent 6.7 Flume Source 6.8 Flume Channel 6.9 Flume Sink 6.10 Flume配置 6.11 Flume事务管理 6.12 Flume的其他组件 6.13 上下文路由 6.14 Flume运行范例 6.15 适合使用Flume的场景 6.16 不适合使用Flume的场景 6.17 其他选项 6.18 总结 第7章 使用Apache Kafka构建消息层 7.1 数据湖背景中的消息层 7.2 为什么使用Apache Kafka 7.3 Kafka的架构 7.4 其他Kafka组件 7.5 Kafka编程接口 7.6 生产者和消费者的可靠性 7.7 Kafka的安全性 7.8 Kafka作为面向消息的中间件 7.9 Kafka与水平可扩展架构 7.10 Kafka连接 7.11 Kafka运行范例 7.12 适合使用Kafka的场景 7.13 不合适使用Kafka的场景 7.14 其他选项 7.15 总结 第8章 使用Apache Flink处理数据 8.1 数据湖背景中的数据摄取层 8.2 为什么使用Apache Flink 8.3 Flink的工作原理 8.4 Flink的API 8.5 Flink运行范例 8.6 适合使用Flink的场景 8.7 不适合使用Flink的场景 8.8 其他选项 8.9 总结 第9章 使用Apache Hadoop存储数据 9.1 数据湖背景中的数据存储和Lambda批处理层 9.2 为什么使用Hadoop 9.3 Hadoop的工作原理 9.4 Hadoop生态系统 9.5 Hadoop发行版 9.6 HDFS和数据格式 9.7 Hadoop用于近实时应用 9.8 Hadoop部署模式 9.9 Hadoop运行范例 9.10 不适合使用Hadoop的场景 9.11 其他选项 9.12 总结 0章 使用Elasticsearch存储全文索引 10.1 数据湖背景中的数据存储层与Lambda快速处理层 10.2 什么是Elasticsearch 10.3 为什么使用Elasticsearch 10.4 Elasticsearch的工作原理 10.5 Elastic Stack 10.6 Elastic Cloud 10.7 Elasticsearch DSL 10.8 Elasticsearch中的节点 10.9 Elasticsearch与关系数据库 10.10 Elasticsearch生态系统 10.11 Elasticsearch部署选项 10.12 Elasticsearch Client 10.13 Elasticsearch用于快速流式处理 10.14 Elasticsearch作为数据源 10.15 Elasticsearch用于内容索引 10.16 Elasticsearch与Hadoop 10.17 Elasticsearch运行范例 10.18 适合使用Elasticsearch的场景 10.19 不适合使用Elasticsearch的场景 10.20 其他选项 10.21 总结 第三部分 将所有技术整合在一起 1章 数据湖组件集成 11.1 数据湖的学习进程 11.2 数据湖架构的核心原则 11.3 企业数据湖面临的挑战 11.4 企业对数据湖的期望 11.5 数据湖的其他用途 11.6 了解更多关于数据存储的信息 11.7 更多关于数据处理的知识 11.8 数据安全 11.9 数据加密 11.10 元数据管理和治理 11.11 数据审计 11.12 数据可追溯性 11.13 了解更多服务层细节 11.14 总结 2章 数据湖用例建议 12.1 在企业中推行网络安全实践 12.2 深入了解企业的客户 12.3 提升仓储管理效率 12.4 品牌创建与企业营销 12.5 为客户提供更个性化的服务 12.6 让物联网数据触手可及 12.7 更实用的数据归档 12.8 现有的数据仓库基础设施 12.9 实现电信安全和法规遵从 12.10 总结 内容虚线 内容简介 本书分为三个主要部分。靠前部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的很新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的很后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。