Ta上传的资源 (0)

经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档 相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的 内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查 询项进行精确匹配,因此只

文本分类可以把未标注类别的文档分到预先定义好的类别中 去。图1.1 是文本分类的示意图。一般来说,文本分类系统是采用有指导学 习(Supervised Learning)方法来构造一个分类器(Classifier)。首先,提供一些标注 Fig. 1.1 The Frame of Text Categ