@Author:By Runsen @Date: 2020/5/8 文章目录1、前言2、 爬虫2.1 分析网页2.2 保存2.3 爬虫代码3、数据分析3.1 数据预处理3.2 词云3.3 价格分布3.4 图书出版最多10个的出版社3.5 图书评论最多5个出版社3.6 医书出版趋势图4、致敬医务人员 1、前言 最近需要爬取当当关于医学的图书,做一个数据分析,别问我为什么做,是为了Money。 2、 爬虫 2.1 分析网页 爬取的信息都在一个li的标签中,通过xpath进行解析得到需要爬取的内容 然后在分析换页的url存在什么的变化。第一页的url:http://search.dangdang.