论文研究中文短文本去重方法研究.pdf

sjzbxyz 22 0 PDF 2020-07-18 13:07:51

针对中文短文本冗余问题，提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点，以及中文与英文之间的区别，引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重，第二阶段由SimHash算法进行相似去重。设计了该算法框架的各项参数，并通过仿真实验证实了该算法框架的可行性及合理性。

资源预览

用户评论

暂无评论

论文研究新文本去重方法研究.pdf

新文本去重方法研究，聂洋，，本文通过引入通常见于英文领域的LCS方法来计算近似文本相似度进行去重。文章主要通过分析随机抽取的网页数据文件，对比常用的VSM去

15 2020-07-18
中文短文本分类方法研究

详细介绍了中文短文本分类的方法，并给出了相关的模型及算法。

40 2019-01-22
论文研究基于CP CNN的中文短文本分类研究.pdf

短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对此问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的

10 2021-04-18
短文本理解研究

短文本理解研究

19 2019-04-01
文本去重策略研究DSC IMatch

这是一篇关于文本去重策略的研究论文，包括DSC算法、i-match算法介绍。

19 2019-09-22
论文研究大规模短文本的快速话题发现方法与评价研究.pdf

传统的话题发现研究主要针对于长文本及新闻数据集，大规模短文本具有稀疏、无结构、多噪等特点，传统方法很难有效发现话题。提出了一个融合词共现与加权GN（CW-WGN）算法的快速话题发现方法，描述了CW-W

27 2019-09-14
论文研究融合BTM主题特征的短文本分类方法.pdf

针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题，提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中，在TF-IWF的基础上降低词频权重并

17 2020-05-18
论文研究基于LCS与发布时间的焦点新闻文本去重研究.pdf

基于LCS与发布时间的焦点新闻文本去重研究，莫雨婷，杨小平，互联网新闻新闻中存在大量重复的新闻网页，它们一方面浪费网络存储资源，同时也给用户检索信息带来一定麻烦。当焦点新闻爆发，网

23 2020-02-19
论文研究猎鹰一种新颖的中文短文本分类方法

对于自然语言处理问题，短文本分类仍然是研究的热点，在特征稀疏，高维文本数据和特征表示方面存在明显问题。为了直接表达文本，提出了一种简单而又新颖的变体，它采用单维度低维度。本文提出了一种基于Dens

12 2020-07-30
论文研究基于新闻网页主题要素的网页去重方法研究.pdf

基于新闻网页主题要素的网页去重方法研究，王鹏，张永奎，网页检索结果中，用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的

25 2020-02-19

论文研究 中文短文本去重方法研究.pdf

资源预览

用户评论

推荐下载

论文研究中文短文本去重方法研究.pdf