Go爬虫框架go_spider.zip
本项目基于golang开发,是一个开放的垂直领域的爬虫框架,框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 本项目将爬虫的各个功能流程区分成Spider模块(主控),Downloader模块(下载器),PageProcesser模块(页面分析),Scheduler模块(任务队列),Pipeline模块(结果输出); 执行过程简述: Spider模块从Scheduler模块中获取包含待抓取url的Request对象,启动一个协程,一个协程执行一次爬取过程,此处我们把协程也看成Spider,Spider把Request对象传入Downl
文件列表
go_spider-master.zip
(预估有个43文件)
go_spider-master
.gitignore
259B
README.md
6KB
extension
pipeline
contribution_pipeline_extension_here
0B
other
contribution_other_tool_here
0B
scheduler
redis_scheduler.go
4KB
暂无评论