Python特征码修改_记录一种以#x开头的特征数据解码方法。本文分享一个小技巧,今天在分析某网站时遇到了一个神奇的编码,如下13555,无论如何都无法解码出来。经查,发现在Node层利用cheerio解析网页时,输出的中文内容都是以一堆像乱码一样的东西开头。尝试了多种编码都没有效果,而奇怪的是,将这一堆"乱码"保存成网页后,通过浏览器打开却可以正常显示。根据我多年的爬虫分析经验来看,这应该是我需要的内容,而不是随机生成的。我想了很久,突然想起了一种HTML的编码表现形式,有没有觉得很像那种HTML的特征码,比如空格就是以上的数据,格式很像。经过搜索,发现这种形式被称为numeric character reference,数字取值为目标字符的Unicode point;以「」开头的后接十进制数字,「」开头的后接十六进制数字。从HTML4开始,numeric character reference以Unicode为准,与文档编码无关。我突然想起,之前也遇到过类似的情况。