最近大四闲在家里特别无聊,毕业设计也想不出做啥,无聊泡论坛的时候发现自己没怎么做过爬虫啊,做几个爬虫练练手 既然做爬虫,就爬点有意思的东西,于是随便找了个网站爬一爬 这个网站结构还算简单网址直接是index_12345.html 直接做个循环就可以爬下所有的网址 捋一下思路 访问主页 获取图片详情页丢到线程里跑一下保存,然后自动获取每一套图的下一页循环保存 存的时候做一下判断有没有重复的图片,有就直接取消了,顺便把文件夹名字改为详情页的标题好分类 先跑个线程把第一页爬了 import threading # 导入threading模块 from queue import Queue