HTMLParser模块简介 我们使用urllib模块进行HTTP请求获取到的是整个网页的HTML,但是我们往往只需要其中一部分对我们有用的内容。这时我们就可以使用HTMLParser模块来帮助我们处理HTML。 HTMLParser是Python内置的专门用来解析HTML的模块。利用HTMLParser,我们可以分析出一段HTML里面的标签、数据等,是一种处理HTML的简便途径。 基于BS库的网页源码整理 假设我们在网上爬取了下列源码 html_doc = """ The Dormouse's story The Dormouse's story Once upon a time there