lucene新闻搜索引擎的实现 研究www搜索引擎的系统结构,并重点对网络机器人、索引与搜索程序以及用于查询的Web服务器三个方面进行详细分析。 在这些研究的基础上利用JavaTM相关技术和一些开源工具包实现一个简单的搜索引擎——新闻搜索引擎
solr60.0.0 Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过HttpGet操作提出查找请求,并得到XML格式的返回结果
heritrix网络爬虫 Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和METArobots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。
Lucene_600 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的