python爬虫爬取百度百科页面简单爬虫框架爬虫调度器URL管理器网页下载器urllib2网页解析器BeautifulSoup价值数据目录结构http images2015.cnblogs.com blog76308320160176308320160106142320340420909875.png注mac osx下用alt enter添加相应方法爬虫调度器spider main.pyurl管理器url manager.py下载器htmldownloader.py解析器htmlparser.py数据输出htmloutputer.py运行程序spider main.py可进行爬取页面最终文件输出为output.html里面包含词条和词条解释爬取完毕.output.html http images2015.cnblogs.com blog763083201