采用python爬取起点并进行可视化
实现了数据爬取解析储存分析和可视化等需求.本项目整体使用了Python语言爬取的目标是起点中文网目的是获得其畅销榜单的100部小说的相关信息排行书名作者书籍类型简介最新章节最近更新时间和书籍链接然后在网页上进行相应的分析和可视化.本次项目实现的大致功能1网页爬取.采用Python中的urlib库连接并且爬取了起点中文网畅销榜单获得了需要的内容.2数据解析.利用了BeautifulSoup和正则式对获取的网页内容进行了解析拿到我们需要的信息排行书名作者书籍类型简介最新章节最近更新时间和书籍链接.3数据存储.将拿到的数据保存在了Excel文件中同时也利用sqlite3库将相关的数据保存在了数据库中以便于之后数据的利用.4数据分析.利用flask框架构造了一个本地的网站再次利用sqlite3操作数据库进行数据分析并且在网页上进行了展示.数据可视化.通过echarts对书籍类型分布情况绘制了柱状图然后又用wordcloud完成了对书籍简介词频分析和图像的制作同时进行了展示.
文件列表
采用python爬取起点并进行可视化
(预估有个108文件)
.gitignore
184B
book.db
76KB
style.css
24KB
animations.css
7KB
transformations.css
683B
boxicons.css
65KB
boxicons.min.css
52KB
boxicons.eot
224KB
icofont.min.css
90KB
bootstrap.min.css
156KB
暂无评论