当存在噪声和离群点时,k-medoids算法具有较好的鲁棒性,但是对于大数据集,算法的计算代价比较高。CF树是Birch算法中常用的一种结构,对于大数据集的聚类有较好的可伸缩性,但是对于非球形的数据,
一种基于非负矩阵分解的聚类集成算法
针对传统多维度文本聚类算法把文本表示与聚类过程分离,忽略了维度间的互补特性的问题,提出了一种差异互补的迭代式多维度文本聚类算法——CMDC,实现文本聚类与特征调整过程的统一优化。CMDC算法挑选维度聚
为满足网络舆情监控系统中话题发现的需要,并克服经典single-pass算法处理网络文本聚类中受输入顺序影响和精度较低的主要不足,提出了ICIT算法,继承了single-pass算法的简单原理,保证了
提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较。实
基于密度的一种聚类方法(DBSCAN)源码,里面包含一个简单易懂的例子,讲述了DBSCAN,将简单的数据集进行DBSCAN聚类,最终将聚类的结果绘制成为图形化。
聚类中k_means算法的一种改进算法非常优秀的资料
领域本体在知识的共享和重用方面起着重要的作用。本体映射是解决本体异构,在不同本体间建立语义关联的一种有效的方法。针对不同本体间的本体概念映射提出了一种新的概念相似度的综合计算方法,从本体概念名称、属性
针对传统FCM算法对孤立点比较敏感,须预先指定聚类数目的缺陷,提出一种新的模糊聚类算法NSFCM,将其应用于文本挖掘中。NSFCM对数据对象的隶属度增加一个权值,以减少孤立点对聚类中心的影响。采用平均
文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-