暂时直接遍历重复计算了相似度,以后会用迪吉斯特或者哈夫曼树的方式优化