java网络爬虫小程序
设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页; (4)能够对crawler 的一些基本参数进行设置,包括:搜集深度(depth)、文件类型、 文件大
文件列表
crawler.rar
(预估有个6文件)
crawler
实验1
Crawler实验报告.doc
347KB
crawler
Parser.java
923B
Fetcher.java
1019B
CallBack.java
486B
URLList.java
335B
Crawler.java
814B
暂无评论