由于传统的B I R C H算法是用直径来控制聚类的边界, 因此如果簇不是球形, 它就不能很好地工作, 而且传 统的 B I RC H算法只适用于单表。针对 B I R CH的这些缺点, 本文提 出了一种改进的 B I R CH——I B CH算法, 该算 法首先通过 I D传播把多个表联系起来, 使得 B I R C H算法可以适用于多表的情况, 再通过计算共享最近邻密度, 可以 发现任意形状的簇。实验表明, 该算法不仅具有较强的可伸缩性, 还可以得到较高精确的聚类结果。