多线程网络爬虫大家好!我想通过以多线程方式完成爬行任务来调味/加速爬行任务。这个简短的README将涵盖以下几个方面:
-
如何使用
-
实施细则
-
如何使用假设
使用Java(使用JRE 1.6测试),您可以使用以下命令开始抓取:
// The first argument to the JAR is the URL
// The second argument is the maximum number of threads that should be created
java -jar /path/to/Scraper.jar http://www.google.com 40
实施细则:让我们快速浏览一下项目结构:
-
Scraper
-
src
-
Threading: Encapsulates Thread and Inter-Thread communication
这些都是多线程爬虫的基本功能,让您能够轻松进行批量网页抓取。
暂无评论