中文文本分类中特征抽取方法的比较研究.pdf
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
推荐下载
-
多种文本分类方法
基于贝叶斯,SVM对文本进行分类,详细介绍了如何进行文本分类,如python+jieba+skelam
32 2019-06-04 -
基于SVM的中文文本自动分类研究.PDF
Chinese text automatic classification based on SVM. PDF
25 2019-06-22 -
文本分类的分布式特征
关于文本分类的一篇很好的文章。提出了新的分类文本的分布统计特征,也可以作为一篇很好的综述。
25 2018-12-25 -
文本分类特征提取的ppt
本文以一个简单的案例循序渐进的讲解了特征提取的过程,其中,介绍了几种特征提取的方法
53 2018-12-15 -
基于层次特征词权重的文本分类方法
基于层次特征词权重的文本分类方法
33 2019-05-06 -
中文文本分析工具
中文分析软件chineseanalysis
31 2020-05-15 -
中文文本分析code
做的失独老人博客的文本分析,做了词云,词频相关性,和词频聚类。欢迎交流~
50 2019-09-10 -
论文研究基于词典词语量化关系的中文文本分割方法.pdf
随着Internet网络资源的快速膨胀,海量的非结构化文本处理任务成为巨大的挑战。文本分割作为文本处理的一个重要的预处理步骤,其性能的优劣直接影响信息检索、文本摘要和问答系统等其他任务处理的效果。针对
24 2019-09-26 -
论文研究一种基于语义标注特征的金融文本分类方法.pdf
针对基于词袋的机器学习文本分类方法所存在的高维度、高稀疏性、不能识别同义词、语义信息缺失等问题,和基于规则模式的文本分类所存在的虽然准确率较高但鲁棒性较差的问题,提出了一种采用词汇—语义规则模式从金融
19 2020-06-07 -
LDA文本分类研究
LDA text classification research
23 2019-06-26
用户评论