众多自然语言处理(Natural Language Processing,NLP)任务受益于在大规模语料上训练的词向量。由于预训练的词向量具有大语料上的通用语义特征,因此将这些词向量应用到特定的下游任务时,往往需要通过微调进行一定的更新和调整,使其更适用于目标任务。但是,目标语料集中的低频词由于缺少训练样本,导致在微调过程中无法获得稳定的梯度信息,使得词向量无法得到有效更新。而在短文本分类任务中,这些低频词对分类结果同样有着重要的指示性。因此,在具体的短文本分类任务上获得一个更优的低频词词向量表示是有必要的。针对这个问题,文中提出了一种与下游任务模型无关的低频词词向量更新算法,通过基于K近邻的词向量偏移计算方法,利用通用词向量中与低频词相似的高频词所获得的任务特征信息,来指导低频词的信息更新,从而获得更准确的且适用于当前任务语境的低频词词向量表示。并以Textcnn作为基准模型,基于word2vec和Glove得到的两个通用预训练词向量,在3个公开的短文本数据集上进行了优化算法的效果验证。实验结果表明,使用优化算法更新低频词词表示后,模型分类准确率能达到84.3%~94%,较更新前提升了0.4%,体现了优化算法的有效性,也进一步证明了短文本分类任务中低频词对分类结果的影响,为短文本分类的研究工作提供了一定的借鉴。
用户评论
推荐下载
-
论文研究猎鹰一种新颖的中文短文本分类方法
对于自然语言处理问题,短文本分类仍然是研究的热点,在特征稀疏,高维文本数据和特征表示方面存在明显问题。 为了直接表达文本,提出了一种简单而又新颖的变体,它采用单维度低维度。 本文提出了一种基于Dens
12 2020-07-30 -
一种改进的贝叶斯网络短文本分类算法
对于短文本由于其特征数少而使分类效果不理想的情况,本文提出了一种改进的的贝叶斯网络文本分类算法,改进之处在于贝叶斯网络结构学习阶段的寻找父节点步骤,本文算法在考虑了连接强度的因素后,减少了本来不相关的
8 2021-02-23 -
基于向量空间模型的多主题Web文本分类方法
基于向量空间模型的多主题Web文本分类方法.pdf
24 2019-05-06 -
基于支持向量机的越语新闻文本分类方法
针对越语新闻文本自动分类问题,本文提出一种基于支持向量机的越语新闻文本分类方法。采用支持向量机学习算法,充分考虑文本中命名实体对越语新闻文本分类的特殊作用,分别在句法和语义层面选取词、词性和命名实体作
8 2021-04-25 -
CNN文本分类keras Keras中基于卷积神经网络的文本分类源码
CNN-文本分类-keras 它是中作为功能api的简化实现 要求 训练 运行以下命令,如果要更改它将运行100个纪元,只需打开 python model.py 对于新数据 您必须重建词汇表然后进
28 2021-02-16 -
pytorch中的embedding词向量的使用方法
今天小编就为大家分享一篇pytorch中的embedding词向量的使用方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
11 2020-10-28 -
文本分类之多标签分类
多标签分类综述 意义 网络新闻往往含有丰富的语义,一篇文章既可以属于“经济”也可以属于“文化”。给网络新闻打多标签可以更好地反应文章的真实意义,方便日后的分类和使用。 难点 类标数量不确定,有些样本可
25 2021-01-15 -
自动文本分类_分类浏览
自动文本分类,用来研究分类浏览的方法,一般用于图书馆系统的构建
41 2019-01-08 -
Sum Product Networks模型的研究及其在文本分类的应用
图模型在机器学习有着广泛的应用。相比图模型,Sum-Product Networks模型具有更强表达能力和更快的推理速度,所以其在对文本和图像数据建模有着广泛的应用。本文总结Sum-Product N
7 2021-02-01 -
利用支持向量机实现中文文本分类.zip
利用支持向量机实现中文文本分类.zip
3 2023-01-26
暂无评论