基于斜率密度聚类的相似文本标定

mimiaimumu 16 0 PDF 2021-02-21 18:02:11

相似文本标定是抄袭检测的一个重要环节,现有标定方法大多采用直接对文本或指纹进行合井的方式,标定精度受干扰信息影响较大。针对这种局限性,分析了匹配指纹对的语义特征,提出基于斜率密度的相似文本聚类方法,将文本匹配合井问题转化成稠密样本点聚类问题,井在 PAN 公用语料库上对该方法进行了测试,得到的主要指标优于 PAN10 前 3 名。目前已将该方法用于华南理工大学特色专业教学平台的作业查抄,取得了较好的效果。

资源预览

用户评论

暂无评论

基于斜率表示的时间序列相似性度量方法

时间序列数据挖掘中数据处理的一种方法，对时间序列进行相似性度量。

37 2018-12-08
论文研究基于密度与网格的聚类算法的改进.pdf

针对传统基于密度树网格聚类算法中存在人为设置密度阈值、重复查询邻域内对象以及边界点处理不当等问题，提出了一种改进的基于密度与网格的聚类算法。该算法首先将全部网格的平均密度值作为其密度阈值，避免了人为设

45 2020-01-31
谱聚类中的相似度矩阵研究

以谱聚类算法为理论基础，对图的分割问题构造合适的相似度矩阵。构造四种相似度矩阵，并进行实验分析。试验结果表明，好的相似度矩阵对图的分割是非常有效地。

52 2019-05-20
适用于大规模文本处理的动态密度聚类算法

适用于大规模文本处理的动态密度聚类算法

7 2021-03-18
基于Web文本的聚类算法的应用研究

Application Research of Clustering Algorithm Based on Web Text

23 2019-06-26
java文本聚类程序代码文件实现文本聚类功能分词

java文本聚类程序代码文件，实现文本聚类功能，分词

61 2019-05-06
C++实现的密度聚类的算法.cpp

输入**样本集合**。 //以下定义的量均为与样本集合相同的类型定义**核心点集合**,获得**样本集合**中的核心点。定义**当前处理集合**,并复制**样本集合**所有点。定义**上一步处理

16 2020-08-20
论文研究基于结构特征聚类的相似代码检索方法.pdf

基于结构特征聚类的相似代码检索方法，王克朝，王甜甜，针对基于图的相似代码检测方法复杂度高、对代码多样化识别能力有限等问题，提出基于结构特征聚类的方法。首先将代码表示为控制依

25 2019-09-09
论文研究一种基于语义相似度的群智能文本聚类的新方法.pdf

针对基于VSM(vector space model)的文本聚类算法忽略了词之间的语义信息和各维度之间的关系，导致文本的相似度计算不够精确，提出了一种基于语义相似度的群智能文本聚类的新方法。该方法融合

12 2020-07-20
一种基于相对密度和决策图的聚类算法

聚类是数据挖掘领域的一个重要研究方向,针对复杂数据集中存在的簇间密度不均匀、聚类形态多样、聚类中心的识别等问题,引入样本点k近邻信息计算样本点的相对密度,借鉴快速搜索和发现密度峰值聚类(CFSFDP)

16 2021-01-16

基于斜率密度聚类的相似文本标定

资源预览

用户评论

推荐下载