基于特征码的网页去重算法研究

ZwRiven 10 0 PDF 2020-12-18 07:12:57

本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标, 分析了搜索引擎工作原理, 讨论了现有的去重算法。给出了一种基于特征码的网页去重算法, 并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率, 达到了对算法的预期。

用户评论

暂无评论

论文研究基于类别方差的特征权重算法.pdf

传统基于概率的特征权重算法，往往只对词频、逆文档频和逆类频等进行统计，忽略了类别之间的相互关系。而对于多分类问题，类别之间的关系对统计又有重要意义。为了提高文本分类的精确度，提出了基于类别方差的特征权

34 2019-09-04
论文研究基于SIFT特征的图像匹配算法.pdf

基于SIFT特征的图像匹配算法，葛梦瑶，别红霞，尺度不变特征变换（ScaleInvariantFeatureTransform,SIFT）是图像匹配领域的研究热点，该算法在尺度空间寻找极值点，提取位置

22 2020-06-07
基于SIFT特征匹配的视频稳像算法研究

一个研究生的毕业论文，基于SIFT特征匹配的视频稳像算法研究，结构清晰

26 2019-08-01
论文研究基于特征的江面轮船识别算法.pdf

提出了一种江面轮船目标的特征识别方法。首先对江面轮船图像进行预处理,然后通过二维小波变换提取出边缘轮廓,将目标物体与背景分离开来。结合提出的FE(feature extract)算法提取出轮船图像的四

11 2021-04-22
JS实现字符串去重及数组去重的方法示例

主要介绍了JS实现字符串去重及数组去重的方法,涉及javascript针对字符串与数组的遍历、判断、删除、添加等相关操作技巧,需要的朋友可以参考下

26 2020-10-28
基于网页结构挖掘算法研究.kdh

基于网页结构挖掘算法研究.kdh,介绍相关的算法和分析过程，

16 2019-07-30
基于SVM的验证码识别算法研究

验证码自动识别论文，在知网上下到的。分享给大家。一共6份，这是第一份

29 2019-07-05
论文研究基于信息熵理论的特征权重算法研究.pdf

文本表示是使用分类算法处理文本时必不可少的环节，文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF（TermFrequencyandInvertedDocume

29 2020-02-15
论文研究基于BOF Gist特征的手势识别算法研究.pdf

针对静态手势识别算法存在特征计算复杂度高，实时性差的问题，提出了一种新的BOF-Gist特征对手势图像进行表示。该特征的优势是在保持Gist特征原有优势的基础上，有效地表征手势图像的局部特征和全局特征

20 2020-07-16
论文研究基于Hadoop平台的并行特征匹配算法研究.pdf

很多大企业采用Hadoop分布式文件系统来存储海量数据，而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下，基于MapReduc

34 2019-09-06

基于特征码的网页去重算法研究

用户评论

推荐下载