基于KMeans的中英文文档聚类
本项目采用K Means算法分别对若干中文文档和英文文档进行聚类其中K的取值为20即最终聚簇结果为20个簇其中文档间的距离采用的是余弦距离K Means算法的终止条件为所有簇的中心不再发生偏移.算法会返回中文文档和英文文档最大的三个簇所对应的文档id id与文档名一一对应以及每个簇距离类中心最近的5个文档.
文件列表
基于KMeans的中英文文档聚类
(预估有个1482文件)
C_News_305.txt
10KB
C_News_493.txt
9KB
C_News_94.txt
14KB
C_News_86.txt
17KB
C_News_260.txt
12KB
C_News_236.txt
14KB
C_News_155.txt
10KB
C_News_228.txt
10KB
E_News_164.txt
13KB
C_News_285.txt
10KB
暂无评论