由复旦大学李荣陆提供。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。train.zip为训练语料,共9804篇文档,分为20个类别。answer.zip为训练语料,共9833篇文档,同为20个类别。训练语料与测试语料基本按照1:1的比例来划分