暂无评论
新文本去重方法研究,聂洋,,本文通过引入通常见于英文领域的LCS方法来计算近似文本相似度进行去重。文章主要通过分析随机抽取的网页数据文件,对比常用的VSM去
详细介绍了中文短文本分类的方法,并给出了相关的模型及算法。
短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对此问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的
短文本理解研究
这是一篇关于文本去重策略的研究论文,包括DSC算法、i-match算法介绍。
传统的话题发现研究主要针对于长文本及新闻数据集,大规模短文本具有稀疏、无结构、多噪等特点,传统方法很难有效发现话题。提出了一个融合词共现与加权GN(CW-WGN)算法的快速话题发现方法,描述了CW-W
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并
基于LCS与发布时间的焦点新闻文本去重研究,莫雨婷,杨小平,互联网新闻新闻中存在大量重复的新闻网页,它们一方面浪费网络存储资源,同时也给用户检索信息带来一定麻烦。当焦点新闻爆发,网
对于自然语言处理问题,短文本分类仍然是研究的热点,在特征稀疏,高维文本数据和特征表示方面存在明显问题。 为了直接表达文本,提出了一种简单而又新颖的变体,它采用单维度低维度。 本文提出了一种基于Dens
基于新闻网页主题要素的网页去重方法研究,王鹏,张永奎,网页检索结果中,用户经常会得到内容相同的冗余页面。本文提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的
暂无评论