基于词向量和EMD距离的短文本聚类

ekg70207d 18 0 PDF 2021-02-23 11:02:49

短文本聚类在数据挖掘中发挥着重要的作用,传统的短文本聚类模型存在维度高、数据稀疏和缺乏语义信息等问题,针对互联网短文本特征稀疏、语义存在奇异性和动态性而导致的短文本聚类性能较差的问题,提出了一种基于特征词向量的文本表示和基于特征词移动距离的短文本聚类算法。首先使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;然后利用欧式距离计算特征词相似度,引入EMD(Earth Mover's Distance)来计算短文本间的相似度;最后将其应用到Kmeans聚类算法中实现短文本聚类。在3个数据集上进行的评测结果表明,效果优于传

资源预览

用户评论

暂无评论

论文研究_基于聚类的快速支持向量机训练算法.pdf

支持向量机(support vector machine, SVM)具有良好的泛化性能而被广泛应用于机器学习及模式识别领域。然而，当训练集较大时，训练SVM需要极大的时间及空间开销。另一方面，SVM训

22 2020-07-16
基于分层聚类的支持向量机模拟电路故障诊断

基于分层聚类的支持向量机模拟电路故障诊断，支持向量机的一个应用

27 2019-05-22
基于人工免疫核聚类的支持向量数据描述方法

摘要:为使支持向量数据描述(SVDD)能应用于无监督多分类情况,提出了一种基于人工免疫核聚类的支持向量数据描述(AIKCSVDD)方法。AIKCSVDD将人工免疫核聚类产生的记忆抗体作为目标数据点,使

7 2021-02-26
论文研究基于EMD和优化K均值聚类算法诊断滚动轴承故障.pdf

考虑到滚动轴承振动信号的非平稳特征和实际应用中典型故障样本不易获得等原因,而在实际应用中,故障程度识别和故障类型诊断一样重要,提出一种滚动轴承故障类型及故障程度识别方法。首先对原始振动信号进行EMD分

17 2020-02-13
基于谱聚类的聚类集成算法

摘要谱聚类是近年来出现的一类性能优越的聚类算法,能对任意形状的数据进行聚类,但算法对尺度参数比较敏感,利用聚类集成良好的鲁棒性和泛化能力,本文提出了基于谱聚类的聚类集成算法.该算法首先利用谱聚类算法的

50 2019-09-28
使用具有词相关性的增强PLSA进行文本聚类

使用具有词相关性的增强PLSA进行文本聚类

1 2021-04-05
基于密度的聚类

基于密度的聚类matlab程序代码，轻松理解密度聚类，并根据个人需求在此基础上进行改进，归为己用。

42 2019-05-05
短文本分类

文档内容是短文本分类的外文期刊,提高英文阅读能力,获取国外分类技术信息

20 2020-12-22
短文本理解研究

短文本理解研究

19 2019-04-01
基于神经网络的文本聚类促进本体的构建

基于神经网络的文本聚类促进本体的构建，为优秀硕士毕业论文，对神经网络在文本聚类中的应用进行了深入的分析。

17 2019-05-22

基于词向量和EMD距离的短文本聚类

资源预览

用户评论

推荐下载