K一近邻法是一种传统的基于统计的模式识别方法,其算法思想也很简单:给定一个待分类的测试文档,系统在训练集中查找最相似的k个文档(称为邻居),并根据这些邻居的类别所属情况来给该文档的候选类别评分。可以把邻居文档和测试文档的相似度作为邻居文档所在类的类权重。如果这k个邻居中的部分文档属于同一个类,则该分类中的每个邻居的类权重之和作为该类别和测试文档的相似度。通过对候选类评分的排序,然后给出一个闭值,就可以判定测试文档的类别。