融合多特征的蒙汉网页新闻文本相似度计算
跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键,其结果直接影响了可比语料的质量。本文通过分析新闻文本特点,提出了一种融合多特征的跨语言新闻文本相似度计算方法。该方法首先抽取新闻的发布日期、标题及正文信息作为特征,再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。实验表明,本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
用户评论
推荐下载
-
网页相似度计算之实词抽取
该demo利用htmlparser和正则表达式把网页的实词提取出来,为搜索引擎开发做准备
19 2019-09-13 -
Python对四种句子文本相似度计算方法进行实验与比较
对四种句子/文本相似度计算方法进行实验与比较
31 2020-07-16 -
Python比较文本相似性的方法difflibLevenshtein
今天小编就为大家分享一篇Python 比较文本相似性的方法(difflib,Levenshtein),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
9 2020-11-21 -
基于SURF特征的计算相似度的匹配算法
该算法可以计算模板和图像之间的相似度,基于SURF特征,可以根据相似度得分来进行模板和图像的匹配。手动指定模板和测试图像就可以运行,语言为python
34 2019-08-01 -
论文研究一种基于文本相似度的蠕虫检测方案.pdf
一种基于文本相似度的蠕虫检测方案,渠海峡,辛阳,随着计算机网络的迅速发展,网络规模不断扩大,蠕虫对互联网的安全造成了越来越大的威胁,蠕虫检测已成为一个重要的研究方向。本
14 2020-05-27 -
dataset sts语义文本相似数据集.zip
dataset-sts, 语义文本相似数据集 基于的语义文本相似集一个典型的A 学习任务包括分类一个句子或者文档序列,换句话说,逼近函数。 f_1(s) ∈ [0,1] ( f_1 可能决定域。情绪。
69 2020-08-16 -
文本相似性热度统计python版
0. 写在前面 节后第一篇,疫情还没结束,黎明前的黑暗,中国加油,武汉加油,看了很多报道,发现只有中国人才会帮助中国人,谁说中国人一盘散沙?也许是年龄大了,看到全国各地的医务人员源源不断的告别家人去支
10 2021-01-17 -
中文文本相似度匹配算法simHash海明距离IK分词
中文文本相似度匹配算法simHash海明距离IK分词完整的可运行的示例代码包含simHash算法,使用IK对中文文本进行分词处理
60 2019-06-05 -
根据word2vec词向量进行文本相似度分析
根据已经训练好的word2vec词向量,对于文本相似度进行相关分析
34 2019-01-01 -
相似度计算
相似度计算
45 2019-06-05
暂无评论