网络爬虫goodcrawler.zip
goodcrawler(GC) 网络爬虫 GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。 GC基于httpclient、htmlunit、jsoup、elasticsearch。 GC的特点: 1、具有DSL特性的模板。 2、分布式、可扩展。 3、辛亏有htmlunit,它能较好地支持javascript。 5、合理的插件设计,方便功能扩充。 6、天然继承es,本身即是一个完整的搜索引擎。 下载独立运行版
文件列表
网络爬虫goodcrawler.zip
(预估有个236文件)
setpath.bat
39B
HtmlUnitTest.java
15KB
UrlResolver.java
19KB
FetchWorker.java
9KB
Fetcher.java
10KB
PageFetcher.java
10KB
EsClient.java
12KB
Movie.java
9KB
ExtractYouku.java
10KB
ExtractorDytt8.java
10KB
暂无评论