抓取国家统计局区划、城乡划分代码的简易python爬虫

geskliu 41 0 RAR 2019-04-10 06:04:57

简易python爬虫的开发,对国家统计局区划、城乡规划代码进行抓取。 所谓简易,一方面是因为是单线程爬虫,不涉及python的多进程、多线程编程,另一方面是因为不包括“URL管理器”的模块(负责存储已爬取、未爬取的url序列,控制爬虫不多爬、不漏爬),而是用了循环体的结构,依次爬取省、市、区、街道的页面。 爬虫主要分为4个模块: 1. 主控制器(spider_main.py),负责对其他模块进行调用,控制整个爬取过程 2. 下载器(html_downloader.py),负责请求指定的url,将响应结果返回主控制器 3. 解析器(html_parser.py),负责调用beautifulsoup4对请求到的html代码进行解析,拼装需要的数据集合 4. 数据库控制器(mysql_handler.py),负责执行数据库操作 4. 数据库控制器(mysql_handler.py),负责执行数据库操作

用户评论
请输入评论内容
评分:
暂无评论