python抓取360百科词条

luersqre 48 0 ZIP 2018-12-28 22:12:19

学习python一周，学着写了一个爬虫，用来抓取360百科的词条，在这个过程中，由于一个小小的改动，程序出现一些问题，又花了几天时间研究，问了各路高手，都没解决，最终还是自己解决了，其实就是对list列表理解不够深入导致的。这个bug很有借鉴意义。有5个模块： spider_main.py是入口函数 url_manager.py是管理器，管理需要抓取的url和已经抓取的url html_downloader.py是下载器，下载对应url的网页 html_parser.py是解析器，解析出新的url列表和当前的词条信息 html_outputer.py是输出器，将抓取的词条title和解释summary输出成一个html表格本程序使用的是最新的python3.4.4，使用的类库有：官方的urllib 第三方的BeautifulSoup（自行下载安装）

文件列表

baike360_spider.zip (预估有个12文件)

baike360_spider

url_manager.py 658B

html_outputer.py 863B

html_parser.py 1KB

__init__.py 0B

output.html 3KB

spider_main.py 1KB

__pycache__

html_downloader.cpython-34.pyc 602B

html_parser.cpython-34.pyc 2KB

__init__.cpython-34.pyc 134B

html_outputer.cpython-34.pyc 1KB

url_manager.cpython-34.pyc 1KB

html_downloader.py 257B

用户评论

webcast3150 2018-12-28 22:12:21

然而我运行你的代码不好使啊···

电脑百科知识

简略的电脑知识，对于解决一些小问题还是很有帮助的哦

37 2019-01-12
vc百科全书

该文件是综合了常见的vc开发的基础知识对新学习mfc的同学有很大帮助

30 2019-01-14
百科题库系统

百科题库综合培训系统，共享版，希望可以给予借鉴

26 2019-01-20
仿糗事百科模板

采用dedecms核 mysql数据库可供学习可下载phpnow进行本地测试学习使用

36 2019-02-25
糗事百科注册工具

糗事百科无码注册工具 To.xiaoC，和在糗事百科注册一样，不一样的是不需要输入邀请码。

40 2019-03-02
百科网站需求文档

百科网站的需求分析文档，包括用例图和详细用例设计。

33 2019-03-01
Git基础命令百科

Git是一个分布式的版本控制系统，最初由Linus Torvalds编写，用作Linux内核代码的管理。在推出后，Git在其它项目中也取得了很大成功。目前，包括Rubinius、Merb和Bitcoi

19 2019-03-02
unity api圣典百科

unity3d圣典中文脚本手册chm版是一款简单实用的Unity3D中文API参考手册，这里面非常详细的介绍了unity3d各种脚本的功能，比如脚本使用方法、参数、类函数、类变量等，是大家学习Unit

76 2018-12-09
智慧城市_维基百科

智能城市的商业模式主要体现在全新的商业环节,社交环节,便民环节,文化环节形成独立而又互连互通的巨大城市经济联盟,最终成为新的互联网行业领军者

65 2018-12-25
高仿茶百科

高仿茶百科，仅仅作为参考，和原版的功能相差不大，应该适合刚刚开始学android

32 2018-12-25

python抓取360百科词条

文件列表

用户评论

推荐下载