pdf. 49页. 本文提出了一种算法以解决文档部分重复检测问题。该方法分为句子级别的重复检测以及序列匹配两个子问题。首先,本文提出了一种快速有效的句子级别的特征提取方法—Low-IDF-SIG算法,并基于该算法实现了一个可以高效地找出句子级别重复的检测系统。为了对本文提出的方法的精度及效率进行评测,作者还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的重复检测任务的效率和精度。此外本文还提出了基于MapReduce范式的文档部分重复检测算法PDC-MR-Ⅱ算法。并基于该算法实现了一个基于MapReduce范式的高效的分布式文档部分重复检测系统。本文中提出的算法和实现的系统可以广泛用于解决论文抄袭检测,论 坛话题重复检测、分页新闻的重复检测等课题。 坛话题重复检测、分页新闻的重复检测等课题。