网络爬虫:使用Scrapy框架编写一个抓取书籍信息的爬虫服务
Scrapy中几个需要了解的概念 Spiders Spider类想要表达的是:如何抓取一个确定了的网站的数据。比如在start_urls里定义的去哪个链接抓取,parse()方法中定义的要抓取什么样的数据。 当一个Spider开始执行的时候,它首先从start_urls()中的第一个链接开始发起请求,然后在callback里处理返回的数据。 Items Item类提供格式化的数据,可以理解为数据Model类。 Selectors Scrapy的Selector类基于lxml库,提供HTML或XML转换功能。以response对象作为参数生成的Selector实例即可通过实例对象的xpat
文件列表
book_scraper_scrapy-master.zip
(预估有个11文件)
book_scraper_scrapy-master
.DS_Store
6KB
scrapy.cfg
268B
amazon.htm
251KB
README.md
21B
book_project
settings.py
3KB
pipelines.py
291B
__init__.py
0B
items.py
276B
暂无评论