今天想使用pyquery库读取本地HTML文件时报错:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa1 in position 164: illegal multibyte sequence。 翻译一下就是UnicodeDecodeError: ‘gbk’编解码器无法解码位置164中的字节0xa1:非法多字节序列。 分析原因: 这个HTML文件是utf-8格式的文件,存储是二进制数据,使用pyquery读取时是采用gbk进行解码!读到了非gbk编码形式的二进制数据,于是就报错了! 排错过程: 我通过查看pyquery源码,企