怎么判断文章相似性

s24199735041 34 0 DOCX 2019-02-20 17:02:05

• 签名,例如md5经常用于判断文章相同,其效率比全文比对效率高 • 局部敏感哈希,例如minhash经常用于判断文章相似 • minhash的原理是,使用子集代表全集合,以子集的相似性模拟全集合的相似性 • 把文章转化为集合的常见方法是分词 • 分句,故意留错别字能够提高检测效率

用户评论
请输入评论内容
评分:
暂无评论