为了解决K-均值算法对初始聚类中心的依赖性,提出了一种新的选取初始聚类中心的算法。采用数据区内的最高密度点作为初始中心,基于近邻点属于同一聚类的特性,找到距离初始中心最远的点,将其加入初始聚类中心后再进行计算并依次下去的方法。该改进算法的初始聚类中心分布比较合理,而且剔除了孤立点对初始聚类中心的影响,从而可以得到更好的划分效果。实验表明,用改进的算法进行聚类更能够得到较高且稳定的准确率。