基于有效特征值提取的快速中文文本分类,详细介绍了有效特征值的提取方法,实例!
本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐, 进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。
硕士论文选辑(一)。 With the developing of Internet and the increasing of users , the Chinese text for the In
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不
头条新闻文本分类数据集,包括11个类别,近50万条数据,文本内容为新闻标题+提取的关键词,分为训练数据和验证数据两个文件
SougoCS数据集,内含11类搜狐新闻文本,近10万条。搜狗提供的数据为未分类的XML格式。此资源已经将XML解析并分类完毕,方便使用。
使用KNN最近邻算法对文本的情感进行分类和回归预测的数据集
AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of mo
大规模新闻文本分类数据集,有多个领域,按文件夹摆放,不仅可以用来做文本分类实验,数据不少甚至可以用来做BERT预训练
机器学习文本分类训练集,用于机器学习算法的训练。复旦大学