spider roach:分布式定向抓取集群 源码
声明 本人自知精力与能力有限,欢迎志同道合之士送上您宝贵的建议与Patch! 关于 一个分布式定向抓取集群的简单实现。 目前实现功能 多线程下载,线程数可配置。 无需修改代码,按照规则添加配置就可以完成页面抽取、入库。 利用Redis的list作为抓取队列,zset作为已抓取集合。 支持分布式部署多个爬虫,Redis作为核心,mysql为存储,当然redis/mysql自身拥有各自的扩展方案。 TODO List KISS: Keep it simple & stupid! Supports cookies,and authentication. Write information into files (using protobuf??). INSTALL 确认安装Python2.7及依赖库: MySQLdb: http://sourceforge.net/projects/my
文件列表
spider-roach-master.zip
(预估有个11文件)
spider-roach-master
Utility.py
1KB
Logger.py
2KB
test.py
2KB
pipeline.py
5KB
downloader.py
2KB
settings.py
555B
scheduler.py
1KB
crawl
1KB
maps.cfg
7KB
暂无评论