本书分为三个主要部分:第一部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的最新进展;第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如ApacheHadoop、Spark、Sqoop、Flume和弹性搜索;第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。