工作中常常需要抓取互联网上的数据,尤其是在面对大量网页抓取或被抓取网站有抓取机制时,通常需要重新编写抓取程序。Scrapy是一个开源的抓取框架,初次接触时按照介绍创建了第一个dirbot爬虫,使用起来非常方便,因此进一步学习并应用于工作中。Scrapy的文档主要是英文的,网上相关的资源较少,使用过程中经常依赖StackOverflow上的解答。从经验来看,Scrapy在国外被广泛使用,而在国内的资源较为匮乏。