title: 正则表达式re.sub替换不完整的问题现象及其根本原因 toc: true comment: true date: 2018-08-27 21:48:22 tags: [“Python”, “正则表达式”] category: [“Python”] — 问题描述 问题的起因来自于一段正则替换。为了从一段HTML代码里面提取出正文,去掉所有的HTML标签和属性,可以写一个Python函数: import re def remove_tag(html): text = re.sub('<.*?>', '', html, re.S) return text 这段代码