这是一个功能强大的Java web爬虫工具,专门用于抓取和解析网站内容。您可以直接下载源码运行,也可以使用发行包进行快速启动。在dist目录中,使用bootstrap.bat或bootstrap.sh来执行程序,并注意命令参数及最后一个xml文件名。如果有任何问题,请在评论区留言或提交issue。使用这个工具,您可以轻松地获取所需的网站内容信息,非常方便实用。
Java web爬虫工具网站内容抓取和解析源码
文件列表
基于java的web爬虫工具-可以爬取web网站信息-源码
(预估有个173文件)
chromedriver
10.28MB
chromedriver.exe
7.13MB
bootstrap.bat
53B
.gitignore
7B
netty-3.5.7.Final.jar
1.06MB
xalan-2.7.2.jar
3.01MB
httpclient-4.5.1.jar
716KB
selenium-firefox-driver-3.0.1.jar
747KB
cssparser-0.9.18.jar
364KB
htmlunit-2.20.jar
1.76MB
暂无评论