scrapy之实现断点续爬以及定时启动和关闭功能.py

quarter_8052 8 0 .py 2021-05-22 12:05:21

1.设置断点续爬：

在定时启动和关闭前，需要先设置断点续爬，将关闭前的数据保存，防止再次启动时新建一个run.py文件

from scrapy import cmdlinecmdline.execute("scrapy crawl douluo -s JOBDIR=crawls".split())

这样爬虫在正常结束时，会新建一个cralws文件夹，并将进度保存在里面

2.设置关闭时间

在启动时添加CLOSESPIDER_TIMEOUT=秒数即可将爬虫设置成多少秒后自动停止运行

from scrapy import cmdlinecmdline.execute("scrapy crawl douluo -s CLOSESPIDER_TIMEOUT=3 -s JOBDIR=crawls".split())

这样，run.py文件就被编辑好了，用于运行scrapy爬虫

3.新建一个runs.py,用于将run文件放入循环中

若直接在run.py中将cmdline.execute放入循环，程序在cmd结束后就结束了，并不会循环，因此新建一个py文件，用于将启动cmd放入循环，这样每次爬取结束后程序都不会结束具体代码如下：

import os import time while True: os.system('run.py') time.sleep(5)

12345

这样，我们就将scrapy设置成了启动后3s自动停止，停止后5s自动启动，并且拥有断点续爬的功能

import

time

while

True

system

(

'run.py'

)

time

sleep

(

)

用户评论

暂无评论

scrapy爬取海贼王漫画

scrapy爬取海贼王漫画,并把漫画下载到本地文档中。方便查看。

8 2021-04-27
scrapy框架爬取58同城数据

scrapy框架爬取58同城数据

18 2021-04-30
Python Scrapy爬取ScienceNews并展示

爬取science官网News部分11133条科技新闻。项目包含两大部分：爬虫部分和爬取到的数据展示部分。两部分可以独立运行。

51 2019-01-01
定时自动控制迅雷启动开始任务暂停任务关闭

编写软件初衷：一直使用迅雷下载文件，但是一打开迅雷就会影响其他程序的上网速度，所以最好能自动控制迅雷在网络空闲时间运行。网上只能找到自动运行迅雷的程序，不能自动关闭迅雷，而且限制很多。只得自己动手

59 2019-01-08
定时关机关闭程序启动程序免安装绿色

定时关机，关闭程序，启动程序，免安装，绿色

32 2019-01-08
js实现的定时关闭页面或定时提醒效果代码

v\:*{behavior:url(#default#vml)} v\:oval,#oDiv{position=absolute;width=200;height=200} #stay{positio

3 2020-12-12
scrapy3gpp_multiprocess.py

python3.7 爬虫程序,实现多线程下载 3gpp 文档,速度峰值能达到50Mbps,3gpp各个系列文档都会下载。

10 2020-08-22
laravel5实现模板主题功能续

前面一篇文章,我们简单讨论了laravel模板主题功能,本文我们继续探讨laravel模板主题功能的实现,本次实现比较重,有兴趣慢慢看吧。

2 2020-11-06
Android实现简单断点续传和下载到本地功能

主要为大家详细介绍了Android实现简单断点续传和下载到本地功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

8 2020-12-25
BootStrap实现带关闭按钮功能

主要介绍了BootStrap实现带关闭按钮功能,非常不错,具有参考借鉴价值,需要的朋友可以参考下

15 2020-11-06

scrapy之实现断点续爬以及定时启动和关闭功能.py

用户评论

推荐下载