winform模拟网络蜘蛛源码

六卿 48 0 RAR 2018-12-29 03:12:01

可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。今后有空可能加入的特性：新特性介绍爬取文件用Berkeley DB存储提高性能：常用操作系统不善于处理大量小文件基于URL Ranking的优先级队列主题爬虫：机器学习算法对链接与主题相关度进行评估，并按照得出的优先级顺序进行爬取爬虫礼仪遵循爬虫禁止协议、以及避免对服务器资源的过度使用等性能优化用UDP取代封装好的HttpWebRequest/Response DNS缓存异步的DNS地址解析硬盘缓存或内存数据库以避免频繁的磁盘寻道分布式爬虫以扩展单机能力（CPU、内存和硬盘访问）

文件列表

winform模拟网络蜘蛛源码 (预估有个167文件)

Program.cs 1KB

UrlFrontierQueueManager.cs 3KB

PriorityQueue.cs 5KB

Logger.cs 3KB

Parser.cs 2KB

CrawlerThread.cs 11KB

Utility.cs 4KB

Settings.cs 4KB

AssemblyInfo.cs 1KB

Downloader.cs 5KB

Program.cs 506B

SettingsForm.cs 3KB

NWebCrawler.csproj.GenerateResource.Cache 915B

ResolveAssemblyReference.cache 11KB

SettingsForm.Designer.cs 58KB

MainForm.Designer.cs 24KB

MainForm.cs 7KB

AssemblyInfo.cs 1KB

Settings.Designer.cs 1KB

Resources.Designer.cs 3KB

用户评论

conscious65176 2018-12-29 03:12:02

很好的源码很不错好用非常不错

u70368 2018-12-29 03:12:02

没文档，不是很好用

fail86369 2018-12-29 03:12:02

很不错，学习了，最近正在研究这个呢！

territory57128 2018-12-29 03:12:02

只可以对新浪进行爬取信息，功能不全。。。

网络蜘蛛强势

WebSpider蓝蜘蛛网页抓取工具5.1可以抓取互联网、wap网站上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表

20 2020-09-14
zuixin网络蜘蛛

网络上的任何资源,你通过它都能轻松找到,神器绝对的神器。

7 2020-09-23
网络蜘蛛webspider

网站下载,webspiderisveryexcellentsoft

21 2020-05-14
网络蜘蛛spider

利用蜘蛛向已存在的网页发送新闻申请得到结果javaweb利用Java解析得到的页面得到想要的信息

43 2019-09-03
csSpider网络蜘蛛

一个可以实现网上抓取的c#编写的网络蜘蛛(源代码)

22 2019-07-19
网络蜘蛛c

Web spider c

36 2019-06-26
Spider网络蜘蛛

xnSpider，网络蜘蛛

38 2019-07-09
c++写的网络蜘蛛蜘蛛

上传一个别人c++写的蜘蛛,仅供参考,本要不承担任何法律问题

12 2020-08-20
模拟几台计算机的通讯模拟网桥

模拟网桥在一台计算机上实现两个程序的通信，以及在两台计算机上实现两个应用程序的通信

19 2019-09-19
联通SGIP模拟网关可以模拟发送和上行

联通SGIP模拟网关，可以模拟发送和上行。共享给大家。

28 2019-06-03

winform模拟网络蜘蛛源码

文件列表

用户评论

推荐下载