搜索链接Java网络爬虫蜘蛛源码zhizhu

predominance_56162 14 0 rar 2023-01-11 16:01:16

摘要在互联网发展初期网站相对较少信息查找比较容易.然而伴随互联网爆炸性的发展普通网络用户想找到所需的资料简直如同大海捞针这时为满足大众信息检索需求的专业搜索网站便应运而生了.网络蜘蛛程序是Web搜索引擎技术中关键的一部分.本论文基于现有的知识理论实现了蜘蛛程序从给定网址开始进行爬行搜索利用数据库队列技术管理网页链接将访问过的网页资源下载到本地硬盘保存.通过使用Lucene工具包对下载资源.利用java.url中的类实现Spider程序与外界通讯以及处理网页中的URL连接对蜘蛛程序的核心类通讯核心蜘蛛程序工作核心资源索引的建立与搜索新型了详细的研究.通过设计分析完成了自己的蜘蛛爬行程序.程序按照初始设计功能完成实现了对网络资源的收集和整理.功能通过了测试程序可以正常稳定运行最后论文对全文进行了总结并对为了发展的方向进行了展望.