scrapy动态爬虫并存入mysql

mxl735 13 0 RAR 2021-05-04 20:05:12

有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得。这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子,我们在刷QQ空间或者微博评论的时候,一直往下刷,网页越来越长,内容越来越多,就是这个让人又爱又恨的动态加载。爬取动态页面目前来说有两种方法分析页面请求(这篇介绍这个) selenium模拟浏览器行为(霸王硬上弓,以后再说) 言归正传,下面介绍一下通过分析页面请求的方法爬取动态加载页面的思路。中心思想就是找到那个发请求的javascript文件所发的请求。举两个例子,京东评论和上证股票。后注:本文的两个例子都是get请求,可以显示的在浏览器中查看效果,如果是post请求,需要我们在程序中构造数据,构造方法可以参考我从前的一篇博文Scrapy定向爬虫教程(六)——分析表单并回帖。京东评论这是一个比较简单的例子。首先我们随便找一个热卖的商品,评论比较多。就这个吧威刚(ADATA) SU800 256G 3D NAND SATA3固态硬盘。点进去看看这个页面现在的状况图一滚动条给的第一印象感觉这页仿佛没多少内容。键盘F12打开开发者工具,选择Network选项卡,选择JS(3月12日补:除JS选项卡还有可能在XHR选项卡中,当然也可以通过其它抓包工具),如下图图二然后,我们来拖动右侧的滚动条,这时就会发现,开发者工具里出现了新的js请求(还挺多的),不过草草翻译一下,很容易就能看出来哪个是取评论的,如下图图三好,复制出js请求的目标ur

文件列表

ScrapySeleniumTest-master.rar (预估有个24文件)

ScrapySeleniumTest-master

ghostdriver.log 4KB

scrapy.cfg 280B

.idea

misc.xml 288B

modules.xml 302B

workspace.xml 408B

inspectionProfiles

profiles_settings.xml 128B

ScrapySeleniumTest-master.iml 284B

.gitignore 27B

scrapyseleniumtest

ghostdriver.log 4KB

middlewares.py 2KB

pipelines.py 1KB

spiders

__pycache__

__init__.cpython-36.pyc 183B

taobao.cpython-36.pyc 2KB

__init__.py 161B

taobao.py 1KB

__pycache__

pipelines.cpython-36.pyc 2KB

items.cpython-36.pyc 495B

middlewares.cpython-36.pyc 2KB

__init__.cpython-36.pyc 175B

settings.cpython-36.pyc 746B

items.py 363B

__init__.py 0B

settings.py 3KB

README.md 55B

用户评论

暂无评论

定向爬虫Scrapy与Redis入门

Redis 是一个高性能的key-value数据库。它将数据保存在内存中，因此可以实现非常快的存取速度。

36 2019-01-22
自己整理的Scrapy爬虫笔记

自己整理的Scrapy爬虫笔记

21 2020-08-29
一个简单scrapy爬虫

一个简单爬虫工程代码，结构齐全，可直接使用，与博客文章同步分享。

25 2019-02-21
基于scrapy的知乎爬虫

这是一个基于python的scrapy框架的爬虫，用于爬取知乎用户、话题、搜索等信息，抓取的信息通过mysql储存

33 2019-05-21
京东天猫scrapy爬虫实例

使用scrapy爬虫框架爬取京东/天猫/滚雪球等主流网站，并存入mongodb数据库中

41 2019-04-10
几个独立的scrapy爬虫程序

几个scrapy独立程序，爬取的内容包括博客园，Coursera，豆瓣，小百合，知乎等网站。

17 2019-07-27
基于scrapy的爬虫小例子

基于scrapy的爬虫小例子，用python3编写，成功爬取指定网址网页内容

36 2019-05-04
scrapy爬虫框架的案例总结

主要讲解了利用Python语言使用scrapy爬虫框架的一些案例

27 2019-05-04
scrapy分布式爬虫全集

Scrapy distributed crawler

51 2019-06-21
Python网络爬虫实战Scrapy视频

Python网络爬虫实战Scrapy视频（完整）（百度云链接-永久有效）

48 2019-05-02

scrapy动态爬虫并存入mysql

文件列表

用户评论

推荐下载