python爬虫入门教程–HTML文本的解析库BeautifulSoup(四)

PanYHHH 24 0 PDF 2020-12-29 23:12:35

前言 python爬虫系列文章的第3篇介绍了网络请求库神器 Requests ,请求把数据返回来之后就要提取目标数据,不同的网站返回的内容通常有多种不同的格式,一种是 json 格式,这类数据对开发者来说最友好。另一种 XML 格式的,还有一种最常见格式的是 HTML 文档,今天就来讲讲如何从 HTML 中提取出感兴趣的数据 自己写个 HTML 解析器来解析吗?还是用正则表达式?这些都不是最好的办法,好在,Python 社区在这方便早就有了很成熟的方案,BeautifulSoup 就是这一类问题的克星,它专注于 HTML 文档操作,名字来源于 Lewis Carroll 的一首同名诗歌。 Be

用户评论
请输入评论内容
评分:
暂无评论