微软亚洲研究院语料库,里面包含了utf-8编码和gbk编码