Ta上传的资源 (0)

BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值来构建聚类特征(cF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处理数值型数据,这使其应用受到限制。针对以上不足,对BIRCH算法做了以

随着信息技术迅速发展,数据库的规模不断扩大,产生了大 量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

由于传统的B I R C H算法是用直径来控制聚类的边界, 因此如果簇不是球形, 它就不能很好地工作, 而且传 统的 B I RC H算法只适用于单表。针对 B I R CH的这些缺点, 本文提 出了一种改进的 B I R CH——I B CH算法, 该算 法首先通过 I D传播把多个表联系起来,