在目前这个信息过载的时代文本的相似度计算应用前景还是比较广泛的它可以让人们过滤掉很多相似的新闻比如在搜索引擎上相似度太高的页面只需要展示一个就行了.考试的时候可以用这个来防作弊同样的论文的相似度检查也是一个检查论文是否抄袭的一个重要办法.本次分享主要讲三个较为常用的文本相似性算法1.基于空间向量的余弦算法2.编辑距离算法Levenshtein距离3.JaccardSimilarity算法及联合哈希函数使用方法1基于空间向量的余弦算法向量空间模型的基本思想是把文档简化为以特征项关键词的权重为分量的N维向量表示.这个模型假设词与词间不相关用向量来表示文本从而简化了文本中的关键词之间的复杂关系文档用十分简单的向量表示使得模型具备了可计算性.1.1算法步骤数据预处理→文本特征项选择→加权→生成向量空间模型后计算余弦.1.2数据预处理预处理主要是进行中文分词和去停用词.按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词符号标点及乱码等去掉.如这的和会为等词几乎出现在任何一篇中文文本中但是它们