python爬虫爬取用户信息以及人际拓扑关系爬虫框架使用scrapy数据存储使用mongo
zhihu spider此项目的功能是爬取用户信息以及人际拓扑关系爬虫框架使用scrapy数据存储使用mongo下载这些数据感觉也没什么用就当为大家学习scrapy提供一个例子吧.使用方法本地运行爬虫程序依赖mongo和rabbitmq因此这两个服务必须正常运行和配置.为了加快下载效率图片下载是异步任务因此在启动爬虫进程执行需要启动异步worker启动方式是进入zhihu spiderzhihu目录后执行下面命令celery A zhihu.tools.async worker loglevel info docker部署进入zhihu spider后执行docker compose up进入container后和本地运行方法相同依次启动mongorabbitmq异步任务爬虫进程即可.docker采用的image可以参见我的另一个项目spider docker获取.请求https www.zhihu.com获取页面中的xsrf数据知乎开启了跨站请求伪造功能所有的POST请求都必须带上此参数.
文件列表
zhihu_spider-master.zip
(预估有个22文件)
zhihu_spider-master
doc
image.png
736KB
代码.png
109KB
流程图.graffle
3KB
流程图.png
95KB
relation.png
403KB
people.png
520KB
主页.png
123KB
docker-compose.yml
232B
暂无评论