微软亚洲研究院语料库(1 089 050 字,训练集和测试集),有UTF8和GBK两种格式