全面掌握用Python进行爬虫抓取以及数据清洗与分析的方法 轻松实现高效数据处理 用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。 * 快速了解Python基本语法、数据类型和语言概念 * 概述数据的获取与存储方式 * 清洗数据并格式化,以消除数据集中的重复值与错误 * 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化 * 使用Scrapy写网络爬虫 * 利用新的Python库和技术对数据集进行探索与分析 * 使用Python解决方案将整个数据处理过程自动化 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如 何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。