这个Java爬虫引擎基于HttpClient技术实现,具备http和https协议的支持,并提供了自定义UserAgent和Header的功能。它还能够处理Proxy代理,允许进行HTML和图片的抓取任务。该框架的核心模块分为三个部分:WebClient、Webquest和ResponseResult。WebClient负责资源下载,Webquest用于处理请求,包括自定义UserAgent、Header和Proxy设置,ResponseResult则涉及响应的各个方面,包括响应头、响应流以及响应cookie等内容。已对HTML抓取功能进行了充分测试。
用户评论
推荐下载
-
http使用的jar
http使用的jar包,包含httpclient4.2.5和4.4.1两版本的jar,下载后,复制lib文件夹的jar包就可使用
17 2019-01-14 -
http所需jar包
http所需jar包
19 2020-08-22 -
http异步所需jar
org.apache.httpcomponents httpclient 4.5.2 org.apache.httpcomponents httpco
7 2020-08-31 -
http相关jar包
http相关jar包: commons-codec-1.9 commons-logging-1.2 fluent-hc-4.5.3 httpclient-4.5.3 httpclient-cache-
41 2018-12-08 -
Apache Http常用jar
包含:httpclient-4.5.5.jar,httpcore-4.4.6.jar,httpmime-4.5.5.jar
24 2019-07-07 -
http的jar包
超文本传输协议(HTTP,HyperTextTransferProtocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收H
25 2019-04-28 -
http各种jar包
http的各种开发jar包
46 2018-12-09 -
java写的商用爬虫源代码及搜索引擎
一个java写的商用爬虫程序及搜索引擎,附有源代码 代码写的很规范,可做商用或学习参考
7 2021-01-22 -
基于java通过网络爬虫进行搜索引擎扫描.rar
在使用java语言的前提下,通过网络爬虫技术,遍历搜索引擎的内容信息,目前可以便利博客园和搜狐搜索引擎,写的代码只能遍历这两个,程序可以运行,各种包需要自己下载和调试。仅适合参考和小白学习。
6 2020-08-20 -
java课程设计网络爬虫搜索引擎.docx
.
3 2023-01-15
暂无评论