舆情去重算法的研究与比较
近年来,舆情信息在大数据服务中广泛被加工使用,但转载、复制等操作使得采集的舆情信息重复量庞大,给后期的加工带来困难。在这种情况下,针对舆情数据开展去重研究的却相对较少。文中针对舆情去重不可避免但缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard等经典去重算法,结合TF、TF-IDF、特征码等不同特征选择和3 000舆情样本进行实验,最终发现MinHash+特征码运行时间最短;Jaccard的漏判数最少,召回率可达90%以上;MinHash算法的误判数最少,去重精度可达100%,并且MinHash通过阈值的调整能够获得Jaccard同样的召回率。
用户评论
推荐下载
-
论文研究基于暗通道先验的比值重估透射率去雾算法.pdf
针对暗原色先验去雾算法中雾霾图像明亮区域透射率估计过小,造成图像色彩失真的问题,提出一种新的基于比值重估透射率去雾算法。设定暗通道图与大气光强的差值阈值,利用预估透射率和全局透射率的比值重新估计透射率
11 2020-05-19 -
浅谈python元素如何去重去重后如何保持原来元素的顺序不变
主要介绍了浅谈python元素如何去重,去重后如何保持原来元素的顺序不变?具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
16 2020-11-09 -
几种现代优化算法的比较研究
本文主要介绍了遗传算法/蚁群算法/禁忌搜索算法的特点,并提出了今后研究的方向
30 2019-01-13 -
文本分类算法的比较研究
本文通过对Bayes、KNN、SVM应用于中文文本分类进行比较实验研究。应用ICTCLAS对中文文档进行分词,在大维数,多数据情况下应用TFIDF进行特征选择,并同时利用它实现了对特征项进行加权处理,
40 2019-07-15 -
关于乡村振兴战略的发展研究与舆情分析
关于乡村振兴战略的发展研究与舆情分析,关于乡村振兴的一篇文档。
41 2018-12-07 -
MC与MT算法与比较
一篇很好的论文,把MC算法原理都讲的很清楚,值得学习。
22 2019-03-13 -
论文研究基于字符统计的新闻网页去重方法研究.pdf
基于字符统计的新闻网页去重方法研究,蒋金平,郭艳卿,针对新闻报道网页篇幅较短的特点,提出了一种基于字符统计的新闻网页去重方法。通过字符统计和去停用词处理提取出新闻报道中具有
24 2020-02-19 -
信息指纹与消重算法
信息指纹与消重算法,利用信息指纹进行排重
54 2018-12-24 -
基于谱减法进行语音去噪的算法研究与实现
基于matlab的 谱减法语音去噪的算法研究 与实现
32 2018-12-24 -
在线旅游平台产品分析:途牛、去哪儿和去啊的比较研究
在线旅游平台产品分析:途牛、去哪儿和去啊的比较研究这份报告深入探讨了三个主要在线旅游平台——途牛、去哪儿和去啊——的产品特点。通过对比分析,揭示了各个平台的优势和劣势,以及它们如何满足不同旅行者的需
10 2024-05-07
暂无评论