中文文本分类中特征抽取方法的比较研究

Nicolas_YXL 36 0 PDF 2019-05-14 17:05:52

本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

推荐下载

高性能特征选择及文本分类算法研究

本文针对现有特征选择算法没有利用有用的词条频率信息。没有定性分析的现状,提出了基于词条频率的改进特征选择算法,对特征选择算法进行了定性分,提出了构造高效特征选择方法的约束条件和步骤,构造出一种高效的特

复旦大学中文文本分类数据集.rar

复旦中文文本数据集,包含训练集与测试集,数据集为TXT格式,可以进行文本分类实验,机器学习,深度学习,需要的可以下载。

中文文本分类项目数据集.rar

“复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供的小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效

中文文本分类语料复旦训练集测试集

中文文本分类语料(复旦)-训练集和测试集这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档；train_corpus为训练语料,共9804篇文档,两个

使用最大熵模型进行中文文本分类

随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技末1由于最大嫡模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结来.但是,将最大嫡模型应用在文本分类中的研

2008最新搜狗中文文本分类语料最新最全

很全的中文文本分类语料库可以用于文本分类文本聚类C000007汽车C000008财经C000010ITC000013健康C000014体育C000016旅游C000020教育C000022招聘C000

利用支持向量机实现中文文本分类.zip

利用支持向量机实现中文文本分类.zip

机器学习中文文本分类实战代码数据

1.文本类别数10类2.训练集文档数50000篇每类平均5000篇.3.测试集文档数50000篇每类平均5000篇.分组完成实验组员数量3个人实现可以获得实验加分.实验内容利用分类算法实现对文本的数据

论文研究新型快速中文文本分类器的设计与实现.pdf

提出了一种面向任务的软件过程控制模型,旨在提高软件过程控制能力、促进CMM/CMMI的实施。该控制模型采用面向任务的调度思想,将软件过程划分为一系列任务。采用有限域约束规划方法建立约束模型,生成任务调

论文研究采用预训练字符向量的中文文本分类.pdf

采用预训练字符向量的中文文本分类,关沫,刘坤,由于中文字符与其他字母语言所含字符存在巨大差异,主要表现在中文所含字符数量更大以及字符所含信息更丰富,将字符级卷积神经网

用户评论

请输入评论内容

评分：

暂无评论