论文研究文本分类中信息增益特征选择方法的研究.pdf

chenzijing 31 0 PDF 2020-07-22 09:07:32

分析了传统信息增益（IG）特征选择方法忽略了特征项在类间、类内分布信息的缺点，引入类内分散度、类间集中度等因素，区分与类强相关的特征；针对传统信息增益（IG）特征选择方法没有很好组合正相关特征和负相关特征的问题，引入比例因子来平衡特征出现和不出现时的信息量，降低在不平衡语料集上负相关特征的比例，提高分类效果。通过实验证明了改进的信息增益特征选择方法的有效性和可行性。

资源预览

用户评论

暂无评论

论文研究基于语义的文本特征加权分类算法.pdf

文本分类存在维数灾难、数据集噪声及特征词对分类贡献不同等问题, 影响文本分类精度。为提高文本分类精度, 在数据处理方面提出一种新方法。该方法首先对数据集进行去噪处理, 结合特征提取算法和语义分析方法对

22 2020-07-16
论文研究基于类别特征向量表示的中文文本分类算法.pdf

采用一种无须分词的中文文本分类方法，以二元汉字串表示文本特征，与需要利用词典分词的分类模型相比，避免了分词的复杂计算；为提高以bigram项表示文本特征的分类算法的准确率，提出了基于类别特征向量表示

17 2020-04-10
KNN文本分类中特征词权重算法的研究

KNN文本分类中特征词权重算法的研究机器学习

40 2018-12-15
论文研究基于复杂网络的情感分类特征选择.pdf

首先针对公共情感词典对专业领域适用性较低的问题，以公共情感词典作为种子情感词典，以评论语料库中未出现在公共情感词典中的形容词作为候选情感词，在此基础之上利用点互信息理论构建专业领域的情感词典；其次针对

61 2019-09-08
论文研究LDA模型下不同分词方法对文本分类性能的影响研究.pdf

通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标，从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响，定量、定性地分析不同分词方法在网页和学术文献等

16 2020-06-10
论文研究基于Hadoop的SVM并行化文本分类研究与实现.pdf

基于Hadoop的SVM并行化文本分类研究与实现，吴泽伦，郑岩，支持向量机（SVM）已成为一种非常流行的分类工具，但支持向量机算法的主要缺点是当它处理的数据集规模很大时需要较大内存和训练��

24 2019-09-09
论文研究语言自然节奏在文本分类中的研究与应用.pdf

大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法，通过对语言中标点标记的自然节奏进行分析，获取其特征，应用贝叶斯分类器，可以快速高效地完成文本分类任务。这种文本分类方法与当

5 2020-07-24
基于SVM的文本分类系统中特征选择与权重计算算法的研究.pdf

基于SVM的文本分类系统中特征选择与权重计算算法的研究.pdf

10 2020-12-15
论文研究基于词频分布信息的优化IG特征选择方法.pdf

文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处，以特征项的频数在文本中不同层面的分布为依据，分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改

26 2020-07-22
论文研究基于混合克隆量子遗传策略的文本特征选择方法.pdf

引入向量约简率和分类准确率的度量标准，采用量子比特对遗传算法进行编码，结合克隆算子，提出一种基于混合克隆量子遗传策略的文本特征选择方法。实验结果显示，该方法能有效地降低文本特征向量的维度，所提取的特征

12 2020-07-17

论文研究 文本分类中信息增益特征选择方法的研究.pdf

资源预览

用户评论

推荐下载

论文研究文本分类中信息增益特征选择方法的研究.pdf