文档部分重复检测研究
pdf. 49页. 本文提出了一种算法以解决文档部分重复检测问题。该方法分为句子级别的重复检测以及序列匹配两个子问题。首先,本文提出了一种快速有效的句子级别的特征提取方法—Low-IDF-SIG算法,并基于该算法实现了一个可以高效地找出句子级别重复的检测系统。为了对本文提出的方法的精度及效率进行评测,作者还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的重复检测任务的效率和精度。此外本文还提出了基于MapReduce范式的文档部分重复检测算法PDC-MR-Ⅱ算法。并基于该算法实现了一个基于MapReduce范式的高效的分布式文档部分重复检测系统。本文中提出的算法和实现的系统可以广泛用于解决论文抄袭检测,论 坛话题重复检测、分页新闻的重复检测等课题。 坛话题重复检测、分页新闻的重复检测等课题。
用户评论
推荐下载
-
基于极值点分块的重复数据检测算法
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法
1 2021-02-23 -
易语言重复运行检测共享内存方式源码
易语言重复运行检测共享内存方式源码,L_重复运行,L_写共享内存,L_读共享内存,检测内存,Z_共享内存_CreateFileMappingA,Z_共享内存_OpenFileMappingA,Z_共享
15 2020-08-18 -
是文档讲述了APF的自适应重复控制
在现有电力有源滤波器重复控制方法的基础上,提出了自适应负载谐波电流数字检测方法和重复控制自适应信号发生器。基于瞬时无功功率理论,在dq坐标系中实现谐波电流的数字检测算法,并引入自适应的每基波周期采样点
19 2019-07-09 -
阿里云开源文档库如何处理重复资源
阿里云藏经阁的开源文档库是一个极为丰富的资源库,但是随着用户越来越多,重复资源问题也随之而来。为了解决这个问题,我们需要使用搜索引擎优化技巧来改写资源标题和内容,避免重复内容的出现。如果标题中包含计算
8 2023-03-18 -
高频链逆变器的重复控制策略研究
介绍了高频链逆变器的拓扑,建立了高频链逆变器及其重复控制策略的仿真模型,并对系统进行仿真分析。通过仿真验证了重复控制策略能够使高频链逆变器获得高质量的输出波形。
9 2020-10-28 -
roamsr漫游研究中的间隔重复源码
:card_file_box: roam / sr-漫游研究中的间隔重复 有关更多信息,请参见: : 贡献 在Twitter上与我联系: : 或电子邮件 。 在此存储库中创建问题并拉取请求。
4 2021-04-08 -
重复脉冲XeCl激光器的研究
收稿日期:--
9 2021-02-07 -
文档复制比亿彩文档重复率批量修改精灵v1.0
亿彩文档重复率批量修改精灵,本工具对Word/PPT文档进行无损智能再处理,再不影响原文档内容和版本的前提下,以实现被处理后的文档不跟网络上未知的已存在的文档相似,提高相似
6 2020-10-28 -
symfony框架部分文档内容的翻译介绍部分
自己翻译的部分symfony框架部分文档
23 2020-02-24 -
信号检测与估计课件以及部分答案
本文件包含信号检测与估计的大部分课件和一些课后习题答案,对信号检测与估计学习有困难的同学可以看看
12 2020-11-10
暂无评论