此处以爬取百度百科为例 本文的爬虫组成分为以下几部分 1.调度器(controler) 协调几个模块之间的工作 2.url管理器(urlmanager) 去重,如果url已经被抓取过,就不在访问该url 3.html下载器(htmldownloader) 下载html 4.html解析器(htmlparser ) 解析html,解析内容为链接和文档 5.数据输出器(dataoutputer) 对数据进行保存 调度器(controler) #coding:utf-8 #引入各个模块 import Urlmanage