论文研究基于VSM的文本相似度计算的研究.pdf
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TDIDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TDIDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。
用户评论
推荐下载
-
论文研究基于连边相似度的重叠社区发现算法研究.pdf
针对GN算法在发现重叠社区时存在的不足,以及为了降低算法时间复杂度,提出一种基于网络图中连边相似度划分连边集的重叠社区发现算法EGN。算法依据网络图的连边集进行划分,每一条边被划分到某个特定的社区,而
37 2020-01-06 -
论文研究基于融合特征相似度的实体消歧方法研究.pdf
在数字资源日益丰富的环境下,人名歧义现象为数据检索带来了很多不确定性,降低了数据检索的准确度。运用人名实体的个人信息特征和作者文献话题等特征,采用多特征的融合方法充分挖掘与实体相关联的信息,实现人名消
30 2020-07-22 -
论文研究考虑物品相似权重的用户相似度计算方法.pdf
传统的用户相似度计算方法中每个项目的权重是相同的,然而分析传统推荐算法和现实情形,用户间共同高评分项目的权重应该高于用户间共同低评分项目的权重,并且传统用户相似度计算方法没有考虑项目间的类群关系。针对
15 2020-07-17 -
文本相似度检测工具1.0版
用VS2005,C#利用VSM向量空间算法实现的包括.txt,.doc,.html,.htm文本的相似度检测
33 2019-05-16 -
易语言文本相似度判断模块源码
易语言文本相似度判断模块源码,文本相似度判断模块,文本相似度判断,逐字分割
12 2020-07-21 -
JAVA文本相似度查重代码示例
JAVA文本查重算法提供HanLP相似度比较、二叉树、DFA算法实现配置调用样例,支持分词敏感词过滤适用场景:毕业论文查重、文本查重、地址查重
2 2024-05-02 -
文本相似度计算余弦定理和广义Jaccard系数
网上找的资源,给大家共享一下。 文本相似度计算--余弦定理和广义Jaccard系数
61 2019-01-22 -
PythonBERT生成句向量BERT做文本分类文本相似度计算
本文基于Google开源的BERT代码进行了进一步的简化,方便生成句向量与做文本分类
20 2020-06-18 -
基于相似度的文本聚类算法研究及应用
文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。但是,传统的文本聚类算法忽略了文本中单词之间的语
36 2019-06-03 -
词语相似度计算研究
文档用于计算文本自动分类中词语的相似度计算,在舆情分析领域很有用哦
32 2019-06-05
暂无评论