基于谱正则化的非线性判别聚类
由于稀疏性,直接聚类高维数据仍然是一个难题。 因此,通过降维获得它们的低维紧凑表示是对高维数据进行聚类的有效方法。 但是,大多数现有的降维方法最初都是为分类(例如线性判别分析)或恢复高维数据的几何结构(称为流形)(例如局部线性嵌入)而开发的,而不是为了聚类的目的而开发的。 因此,提出了一种新的基于谱正则化的降维非线性判别聚类算法。 该方法的贡献有两个方面:(1)可以获得非线性的低维表示,可以恢复固有的流形结构并增强原始高维数据的聚类结构。 (2)也可以在降维过程中获得聚类结果。 首先,将所需的低维坐标表示为相对于数据流形的预定义平滑向量的线性组合,其特征在于加权图。 然后,通过同时最大化群集间散度和总散度之比,并保持群集分配矩阵相对于数据流形的平滑度,来计算最佳组合系数和最佳群集分配矩阵。 最后,通过迭代过程解决了优化问题,证明了它是收敛的。 在UCI数据集和现实世界数据集上进行的实验证明了该方法对聚类和可视化高维数据集的有效性。
暂无评论