本项目采用K Means算法分别对若干中文文档和英文文档进行聚类其中K的取值为20即最终聚簇结果为20个簇其中文档间的距离采用的是余弦距离K Means算法的终止条件为所有簇的中心不再发生偏移.算法会返回中文文档和英文文档最大的三个簇所对应的文档id id与文档名一一对应以及每个簇距离类中心最近的5个文档.