对比介绍了网页查重算法Shingling和Simhash的优劣,提出了两者适用的不同领域,是文本相似度计算的重要参考资料