一种改进的BIRCH聚类算法
BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值来构建聚类特征(cF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处理数值型数据,这使其应用受到限制。针对以上不足,对BIRCH算法做了以下改进:1)改进原BIRCH算法的CF结构,使其可以处理混合型属性数据集;2)启发式为BIRCH算法选择初始阈值并给出了第二阶段提升阈值的具体操作方法;3)对BIRCH算法参数和做了探讨,指出当参数B=L时算法性能相近,并提出为获得