中文文本分类语料-测试集下载

zhlhoney 39 0 ZIP 2019-05-13 12:05:03

中文文本分类语料-测试集下载是测试集，训练集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料，共9833篇文档；train_corpus.rar为训练语料，共9804篇文档，两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。

推荐下载

基于有效特征值提取的快速中文文本分类,详细介绍了有效特征值的提取方法,实例!

本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐, 进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。

硕士论文选辑(一)。 With the developing of Internet and the increasing of users , the Chinese text for the In

本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不

头条新闻文本分类数据集,包括11个类别,近50万条数据,文本内容为新闻标题+提取的关键词,分为训练数据和验证数据两个文件

SougoCS数据集,内含11类搜狐新闻文本,近10万条。搜狗提供的数据为未分类的XML格式。此资源已经将XML解析并分类完毕,方便使用。

使用KNN最近邻算法对文本的情感进行分类和回归预测的数据集

AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of mo

大规模新闻文本分类数据集,有多个领域,按文件夹摆放,不仅可以用来做文本分类实验,数据不少甚至可以用来做BERT预训练

机器学习文本分类训练集,用于机器学习算法的训练。复旦大学

用户评论

请输入评论内容

评分：

暂无评论