一种改进的文本分类算法
文本分类技术是文本挖掘技术中的研究热点之一,但是传统KNN分类算法的时间复杂度高,在不均匀密度样本下分类准确率低。针对这些问题,提出一种在不均匀密度样本下的优化KNN算法:IKNN算法。首先选取样本分类不均匀的训练样本,并对其中高密度样本做出相应的裁剪,以提高准确率。然后在此基础上,针对裁剪后的训练样本使用投影寻踪理论,选取更小的、更具代表性的样本库,以降低分类算法的时间复杂度。在此理论基础上,通过实验表明,在大量的训练样本下,与经典KNN算法相比,IKNN算法具有更高的效率和准确率。
用户评论
推荐下载
-
文本分类介绍
对文本分类方法介绍,主要适用于图书情报检索学习。
14 2020-08-11 -
论文研究深层自动编码机的文本分类算法改进.pdf
自动编码机作为一种新兴的深层神经网络学习算法,在高维数据的降维和图像重构中取得了很好的效果。针对该方法在文本分类中重构出大量的对学习没有帮助的含噪数据,提出一种利用原型数据监督学习的改进模型,称做深层
22 2020-03-02 -
一个文本分类系统
一个文本分类系统,C++的
28 2020-05-31 -
Python处理文本分类代码一
加载Gutenberg语料库; 过滤停用词; 构建词袋模型:一篇文档是有其中的词构成的一个集合(袋子); 词频分析:NLTK中的FreqDist类可以将单词封装成字典。 分类器部分代码见《Python
36 2019-02-15 -
一种聚类算法的改进算法Canopy算法
针对当前聚类算法存在的由于初始聚类中心随机选取造成最终聚类结果不佳,运用一种启发式的Canopy算法去优化聚类中心的算法,程序用Java编写,希望对大家有用
32 2019-05-15 -
Python用于长文本分类的各种基线模型文本分类
allkindsofbaselinemodelsforlongtextclassificaiton(textcategorization)
56 2020-06-08 -
Python NeuralClassifier一种开源神经分层多标签文本分类工具包
NeuralClassifier - 一种开源神经分层多标签文本分类工具包
9 2020-08-05 -
一种基于改进K means算法的网络流量分类方法
针对网络流量分类识别系统尤其是实时识别系统对实现复杂度和分类准确率的要求,提出一种复杂度和准确率的折中方案。通过基于密度的思想对K-means算法随机选取初始聚类中心这一关键缺陷进行改进,以及引入聚类
9 2020-10-28 -
中文文本分类中文本表示及分类算法研究
本文档是一篇硕士学位论文,题目是《中文文本分类中文本表示及分类算法研究》,详细的介绍了文本分类的表示方法及分类算法,值得参考
50 2019-09-25 -
一种基于N_Gram改进的文本特征提取算法
一种基于N-Gram改进的文本特征提取算法
27 2019-06-05
暂无评论