Spider网络爬虫程序

mlw18773 29 0 GZ 2020-05-18 00:05:57

什么是网络爬虫(Spider)程序   Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等   1.搜索策略   

用户评论
请输入评论内容
评分:
Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

不错,谢谢分享,可以直接用

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

下载下来是互联网上已经有的开源项目larbin,不是作者自己编写,作者仅是把开源项目的开源代码提交上来,就设置了10分,代码不是自己收集整理,设置1分就好了,项目地址http://larbin.sourceforge.net/,项目代码下载地址http://prdownloads.sourceforge.net/larbin/larbin-2.6.3.tar.gz,对这个下载无语

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

资源非常有用,对初学者帮助很大,感谢

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

试试呢,感觉还可以。

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57

谢谢分享,很有帮助

Generic placeholder image 卡了网匿名网友 2020-05-18 00:05:57