基于向量空间模型的中文文本相似度的研究
在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。
用户评论
推荐下载
-
空间向量模型比较文本相似度
利用空间向量模型比较两文本的文本相似度,请自行Google并下载下载,nltk包,port stemming算法
42 2019-03-03 -
基于分词的中文文本相似度计算研究
基于分词的中文文本相似度计算研究
37 2019-01-06 -
中文文本相似度匹配算法
中文文本相似度匹配算法simHash海明距离IK分词完整的可运行的示例代码包含simHash算法,使用IK对中文文本进行分词处理
42 2019-06-05 -
向量空间模型快速文本相似度计算java源码加数据
使用向量空间模型以最快速度计算文本之间的相似度,JAVA源码+数据
24 2019-05-15 -
文本相似度研究
文本相似度研究NLPC文本分类语义识别,google关于文本相似度最新研究
47 2019-05-16 -
基于词向量的文本相似函数
基于词向量的文本相似函数。 包含WDS的Java版本的代码; WDS1-1 WDS1-2 WDS2 三个测试实验; 说明:测试文本编码格式统一使用GBK,否则容易乱码。
15 2020-08-17 -
基于HybridDL模型的文本相似度检测方法
为了提高文本相似度检测算法的准确度,提出一种结合潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)与Doc2Vec模型的文本相似度检测方法,并把该算法得到的模型命名为H
11 2020-10-28 -
gensim包的tfidf方法计算中文文本相似度
gensim包的tfidf方法计算中文文本相似度,代码可直接运行,包含中文停用词,方便。
80 2019-05-07 -
论文研究基于依存句法分析的中文文本相似度计算研究.pdf
基于依存句法分析的中文文本相似度计算研究,赵白玉,彭黎,中文文本相似度的计算在中文信息处理中起着极为重要的作用,在很多领域都有着广泛的应用前景。本文在改进了基于语义依存的汉语句
27 2019-09-07 -
基于向量空间模型的中文文本分类技术研究
0引言伴随着文本挖掘技术的发展,文本分词技术作为文本挖掘技术的一个重要研究分支,也得到了迅速的发展.文本分词技术为大多数文本挖掘技术(如文本分类技术,文本聚类技术等)提供文本预处理工作,分词效果的好坏
22 2019-09-20
暂无评论