本语料库由复旦大学李荣陆提供。下载的原始数据编码格式是gb18030,用python解析时报错,这个是用java将数据格式转为utf-8编码格式后的结果。train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。下载后可以自己重新切分数据,也可以直接用。免费下载地址:链接:https://pan.baidu.com/s/1m0stk-0AovdbMNT5-CMdSA密码:2bvz使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。