scrapy是一个基于Twisted的异步处理框架,可扩展性很强。优点此处不再一一赘述。 下面介绍一些概念性知识,帮助大家理解scrapy。 一、数据流向 要想熟练掌握这个框架,一定要明白数据的流向是怎么一个过程。总结如下: 1.引擎先打开网站,请求url。 2.引擎通过调度器以Request形式调度url。 3.引擎请求下一个url。 4.调度器将url通过Downloader Middlewares发送给引擎 5.Downloader 生成response,通过Downloader Middlewares发送给引擎 6.引擎接收Response 通过spiderMiddleware发送给s