一种检测多语言文本相似重复记录的综合方法