文本聚类在很多领域都有广泛应用,而聚类算法作为文本聚类的核心直接决定了聚类的效果和效率。结合基于划分的聚类算法和基于密度的聚类算法的优点,提出了基于密度的聚类算法DBCKNN。算法利用了k近邻和离群度
基于近邻点集的聚类算法研究,陈新泉,,针对有限区域内分布的稀疏不均的、具有一定分布结构的海量数据点集,本文提出了一种通过采用一些合适的数据结构及算法优化技巧来
分析了目前基于目标函数聚类算法的不足,面对形状复杂且非重叠的样本聚类问题,定义了最邻近距离和生长树的概念。随机选取生长树初始种子点,以最邻近距离作为生长树生长的方向和样本划分依据,以最终生长树大小为聚
区别于传统的聚类方法,提出了以类为起点,通过构造闭包进行聚类的新方法,并建立了聚类判别模型,此模型给出了对于闭包间的交叉区域的检验点的判别准则。然后针对二维的聚类问题,提出了以最小圆为闭包的聚类判别模
介绍了朴素贝叶斯垃圾邮件过滤算法,对于朴素贝叶斯算法中条件概率的计算,选用了多变量贝努里事件模型的计算方法,在多变量贝努里事件模型的基础上进行了改进,并在Ling-Spam语料库上进行实验,实验结果表
介绍了基于内容图像检索的系统结构、特征提取等内容,并将数据挖掘的聚类算法与之结合,对各种聚类算法进行了总结,最后提出了一些未来的发展方向。
针对在线用户评论中产品特征的提取和聚类问题进行了研究,提出一种改进的SimRank算法。将情感词—特征对放入二分网中,在二分网中使用改进后的SimRank算法计算特征词之间的相似度;再通过谱聚类算法对
基于Spark框架的K-means聚类算法研究,皇秋曼,周锋,随着互联网时代的发展,如何从海量数据中挖掘出有用的信息是一个重要的课题。Spark是适用于大数据的高可靠性,高性能分布式并行计�
针对复杂过程的参量聚类问题,提出一种基于粒子群优化算法的聚类方法,阐述了聚类算法的基本思路。通过对过程煅烧温度和煅烧转速二维数据的聚类仿真研究,证明该算法在类似过程参量聚类中的实用性能。对粒子群优化算
针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出