暂无评论
文本分类存在维数灾难、数据集噪声及特征词对分类贡献不同等问题, 影响文本分类精度。为提高文本分类精度, 在数据处理方面提出一种新方法。该方法首先对数据集进行去噪处理, 结合特征提取算法和语义分析方法对
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bigram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示
KNN文本分类中特征词权重算法的研究 机器学习
首先针对公共情感词典对专业领域适用性较低的问题,以公共情感词典作为种子情感词典,以评论语料库中未出现在公共情感词典中的形容词作为候选情感词,在此基础之上利用点互信息理论构建专业领域的情感词典;其次针对
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等
基于Hadoop的SVM并行化文本分类研究与实现,吴泽伦,郑岩,支持向量机(SVM)已成为一种非常流行的分类工具,但支持向量机算法的主要缺点是当它处理的数据集规模很大时需要较大内存和训练��
大规模文体分类是一个非常复杂的任务。提出了一种基于语言自然节奏的文本分类方法,通过对语言中标点标记的自然节奏进行分析,获取其特征,应用贝叶斯分类器,可以快速高效地完成文本分类任务。这种文本分类方法与当
基于SVM的文本分类系统中特征选择与权重计算算法的研究.pdf
文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改
引入向量约简率和分类准确率的度量标准,采用量子比特对遗传算法进行编码,结合克隆算子,提出一种基于混合克隆量子遗传策略的文本特征选择方法。实验结果显示,该方法能有效地降低文本特征向量的维度,所提取的特征
暂无评论