zhihu spider此项目的功能是爬取用户信息以及人际拓扑关系爬虫框架使用scrapy数据存储使用mongo下载这些数据感觉也没什么用就当为大家学习scrapy提供一个例子吧.使用方法本地运行爬虫程序依赖mongo和rabbitmq因此这两个服务必须正常运行和配置.为了加快下载效率图片下载是异步任务因此在启动爬虫进程执行需要启动异步worker启动方式是进入zhihu spiderzhihu目录后执行下面命令celery A zhihu.tools.async worker loglevel info docker部署进入zhihu spider后执行docker compose up进入container后和本地运行方法相同依次启动mongorabbitmq异步任务爬虫进程即可.docker采用的image可以参见我的另一个项目spider docker获取.请求https www.zhihu.com获取页面中的xsrf数据知乎开启了跨站请求伪造功能所有的POST请求都必须带上此参数.