本书介绍了如何开发网络爬虫 。 内容主要包括开发网络爬虫所需要的 Java 语法基础和网络爬虫的工作原理 , 如何使用开源组件 HttpClient 和爬虫框架 Crawler ^ 抓取网页信息 , 以及针对抓取到的文本进行有效信息的提取 。 为了扩展抓取能力 , 本书介绍了实现分布式网络爬虫的关键技术