nutch 爬虫
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。 在Nutch的进化过程中,产生了Hadoop、Tika、Gora
文件列表
nutch ,爬虫
(预估有个827文件)
allclasses-frame.html
42KB
inherit.gif
57B
stylesheet.css
1KB
constant-values.html
129KB
Client.html
40KB
NutchDocument.html
62KB
Nutch.html
44KB
WebPage.Field.html
71KB
WebPage.html
157KB
WebPage.html
56KB
暂无评论