基于Nutch的电力行业全文搜索引擎的研究与设计.pdf 目前,通用搜索引擎对行业领域及特定主题信息覆盖率较低,且无法保证检索信息数据的安全性。因此,本文在开源的Nutch 搜索引擎架构的基础, 通过构建电力行业词典,利用改进的空间向量算法对抓取内容的相关度进行计算,并对相关内容进行过滤,结合主流的PageRank算法对搜索结果综合排序,并嵌入访问控制模块
分布式多主题网络爬虫系统的研究与实现pdf 提出一种基于数据抽取器的分布式爬虫结构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和莆复性检测。