python爬虫爬取用户信息以及人际拓扑关系爬虫框架使用scrapy数据存储使用mongo

davidhunter 4 0 zip 2023-01-30 11:01:10

zhihu spider此项目的功能是爬取用户信息以及人际拓扑关系爬虫框架使用scrapy数据存储使用mongo下载这些数据感觉也没什么用就当为大家学习scrapy提供一个例子吧.使用方法本地运行爬虫程序依赖mongo和rabbitmq因此这两个服务必须正常运行和配置.为了加快下载效率图片下载是异步任务因此在启动爬虫进程执行需要启动异步worker启动方式是进入zhihu spiderzhihu目录后执行下面命令celery A zhihu.tools.async worker loglevel info docker部署进入zhihu spider后执行docker compose up进入container后和本地运行方法相同依次启动mongorabbitmq异步任务爬虫进程即可.docker采用的image可以参见我的另一个项目spider docker获取.请求https www.zhihu.com获取页面中的xsrf数据知乎开启了跨站请求伪造功能所有的POST请求都必须带上此参数.

文件列表

zhihu_spider-master.zip (预估有个22文件)

zhihu_spider-master

doc

image.png 736KB

代码.png 109KB

流程图.graffle 3KB

流程图.png 95KB

relation.png 403KB

people.png 520KB

主页.png 123KB

docker-compose.yml 232B

requirements.txt 60B

.gitignore 30B

zhihu

main.py 96B

scrapy.cfg 254B

zhihu

__init__.py 0B

pipelines.py 2KB

tools

__init__.py 44B

async.py 696B

spiders

__init__.py 161B

profile.py 7KB

items.py 1KB

settings.py 4KB

constants.py 686B

README.md 3KB

用户评论

暂无评论

使用python爬虫实现网络股票信息爬取的demo

下面小编就为大家分享一篇使用python爬虫实现网络股票信息爬取的demo,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

6 2020-12-02
python爬虫使用正则爬取网站的实现

主要介绍了python爬虫使用正则爬取网站的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

19 2020-11-26
Python知乎爬虫爬取知乎用户简单数据信息

萌新入坑代码,大佬勿喷

30 2021-05-08
新浪微博爬虫功能包括爬取用户信息关注粉丝爬取超级话题用户及粉丝相关信息

新浪微博爬虫，功能包括：爬取用户信息、关注、粉丝，爬取超级话题用户及粉丝相关信息

32 2019-09-27
使用python爬虫合集

来自github

14 2020-12-31
爬虫开发阶段爬虫基础MongoDB数据库爬虫Scrapy框架和案例.zip

爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.内有丰富的开发案例，希望对大家有用

31 2019-09-09
scrapy tutorial Scrapy爬虫框架教程源码源码

拼凑教程 Scrapy爬虫框架教程源码

15 2021-04-26
零基础写python爬虫之爬虫框架Scrapy安装配置

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识, 用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫

13 2021-01-01
Python爬虫视频教程含Scrapy框架爬虫开发视频及源码

Python爬虫视频教程含Scrapy框架爬虫开发视频及源码,很好的视频教程赶快来学习吧，

52 2019-05-15
Python爬虫框架Scrapy实战之定向批量获取职位招聘信息

Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

23 2020-08-21

python爬虫爬取用户信息以及人际拓扑关系爬虫框架使用scrapy数据存储使用mongo

文件列表

用户评论

推荐下载