蜘蛛网v1.1.0 介绍 CobWeb有三种运行方法。 首先,它是一个http客户端,它允许get和head请求返回与所请求资源有关的数据哈希。 第二个主要功能是结合使用此功能和Resque的功能来对爬网进行聚类,从而使您能够快速进行爬网。 最后,您可以使用使用爬网中找到的每个页面的块来运行爬网程序。 我已经在创建了一个示例应用程序来帮助设置蜘蛛网。 恢复 在resque上运行时,传入类和队列名称,它将使所有资源排队进入此队列进行处理,并传入其生成的哈希。 然后,您可以实现perform方法来为自己的应用程序处理资源。 单机版 CobwebCrawler采用与cobweb本身相同