这本书由宋立桓老师和陈建平老师共同合作,本书的切入点明确而清晰,从Hadoop生态明星Cloudera入手,单刀直入逐步引出各类大数据基础和核心应用框架。全书系统介绍了大数据的相关知识,全书共十八章(宋立桓老师撰写第一章到第十二章、陈建平撰写第十三章到第十八章),从大数据概述、Clouderahadoop平台的安装部署、并对大数据hadoop组件分别进行介绍,包括HDFS分布式文件系统、MapReduce计算框架、资源管理框架YARN、hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、Zookeeper分布式协调服务、准实时分析系统Impala、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等知识,最后有两个综