多线程网络爬虫大家好!我想通过以多线程方式完成爬行任务来调味/加速爬行任务。这个简短的README将涵盖以下几个方面:

  • 如何使用

  • 实施细则

  • 如何使用假设

使用Java(使用JRE 1.6测试),您可以使用以下命令开始抓取:

// The first argument to the JAR is the URL

// The second argument is the maximum number of threads that should be created

java -jar /path/to/Scraper.jar http://www.google.com 40

实施细则:让我们快速浏览一下项目结构:

  • Scraper

  • src

  • Threading: Encapsulates Thread and Inter-Thread communication

这些都是多线程爬虫的基本功能,让您能够轻松进行批量网页抓取。