复旦中文文本分类语料库.zip
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明来源(复旦大学计算机信息与技术系国)
用户评论
推荐下载
-
人民日报语料库中文分词语料库
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
181 2019-04-28 -
复旦文本分类语料数据集包含训练集和测试集和全集
复旦中文文本分类数据集,包含训练集和测试集,自然语言处理看论文看到数据堂的复旦中文文本分类语料无法下载,网上找到了训练集和测试集,4积分,良心价
54 2019-05-13 -
中文语料库.rar
语料库中文中文语料库复旦大学
57 2019-09-29 -
sogou中文语料库
相对比较完整的中文语料库,用于中文本分类的训练预料
78 2018-12-08 -
搜狗中文语料库
搜狗中文语料库,涉及运动休闲、人文科学、生活百科、艺术设计、医学医药等十大领域。
96 2019-05-17 -
wiki中文语料库
维基中文语料库,大小1.6G,所以上传到百度云,之前在csdn找了很久都没找到,只好自己翻墙去下载
50 2019-01-09 -
数据挖掘文本分类语料库中文李荣陆老师的一部分资料
数据挖掘文本分类语料库(中文)-李荣陆老师的一部分资料
40 2020-01-24 -
THUCTC高效的中文文本分类器源码
THUCTC:一个高效的中文文本分类工具 目录 项目介绍 THUCTC(THU中文文本分类)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练,评
7 2021-02-21 -
复旦大学文本分类数据集
复旦大学中文语料分类数据 3个子文档 一共有19666个文档 是很好的分类语料库
57 2019-01-10 -
文本分类中文垃圾邮件分类.zip
中文垃圾邮件项目: 数据集分为:ham_data.txt 和 Spam.data.txt , 对应为 正常邮件和垃圾邮件 其中每行代表着一个邮件
86 2020-08-09
暂无评论