聚类概念 聚类是把相似的东西分到一组,它是一个无监督问题,没有标签使用 难点: 对于有标签的有监督学习问题,标签可以便于我们来评估模型,无监督学习问题在评估上比较难一点 对于不同的参数组合,得到的学习结果,因为比较难对模型做评估,所以不能通过一个精确度的好坏来选择参数组合 K-MEANS算法 K-MEANS算法是聚类问题中,最简单,也是最实用的一个算法 基本概念 一个数据放进来,需要指定K值,来声明要得到簇的个数 质心:一个簇的数据均值,即向量各维取平均即可(迭代时使用) 距离的度量:常用欧几里得距离和余弦相似度(数据需先标准化) 优化目标 通过目标函数进行不断地优化、求解 min∑i=1K∑