暂无评论
目前的文本特征生成算法一般采用加权的文本向量空间模型,该模型使用TF-IDF评价函数来计算单个特征的权值,这种算法生成的文本特征冗余度往往都比较高。针对这一问题,采用了一种基于聚类加权的文本特征生成算
目前多数l-多样性匿名算法对所有敏感属性值均作同等处理,没有考虑其敏感程度和具体分布情况,容易受到相似性攻击和偏斜性攻击;而且等价类建立时执行全域泛化处理,导致信息损失较高。提出一种基于聚类的个性化[
一种改进的基于模糊聚类的图像分割方法
提出了基于分形的数据流聚类算法,利用分形维数的变化程度来度量数据点与聚类的自相似程度,在噪音干扰下能发现反映数据流自然聚集状态的任意形状的聚类。实验证明,FClustream算法是一种高效的数据流聚类
针对字符型数据和混合型数据的聚类方法进行了研究。首先在经典粗糙集理论的基础上,通过松弛对 象之间的不可分辨和相容性条件,得到了基于和谐关系的扩展粗糙集模型;然后定义了新的个体间不可区分度、 类间不可区
针对海产品安全预警系统中数据缺失问题,提出了一种缺失数据填补方法,目前,使用粗糙集填补的方法很多,但很多方法并没有考虑到每个对象缺失属性个数。该方法将存在缺失数据的信息表分为完备和不完备两部分,并分别
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚
一种基于n-gram短语的文本聚类方法研究
为了改善Java源程序的质量,使之尽可能地符合“高内聚、低耦合”的设计要求,提出了扩展的Jaccard系数,并将其作为实体间相似性的度量公式,采用层次聚类算法将Java类图划分为若干个候选包。在基于交
针对传统的基于网格密度的数据流聚类方法丢失数据的空间位置特性的缺陷,提出了一种基于质量估算(mass estimation)的空间数据流聚类方法。通过h:d树进行空间划分,可将到达数据映射到不同的划分
暂无评论