暂无评论
面向多通道的文本特征选择方法分析,冯莎莎,王秀文,随着Internet的迅猛发展,信息发布和传播通道(比如新闻、论坛、博客等)日益增加,话题跟踪技术也相应地从单通道模式扩展到多通道�
以往的卷积神经网络模型在对文本建模和分类时,通常按顺序提取n-gram卷积特征,忽视了长距离依存关系中的句法结构和语义信息。提出了一种基于事件卷积特征的文本分类方法,利用事件的语义特性弥补之前模型的不
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作
基于层次特征的变体短文本过滤算法,温园旭,徐蔚然,为了规避常规过滤方法,微博、短信等中的有害短文本经常以不规整不正常的变体形式(即变体特征)出现。目前还对该问题还缺少有效解�
评估函数对已定义类别以外的语料区分度相对较低的问题出发, 结合常用的停用词表功能, 提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果, 使用相对词频选择特征词,
针对DBSCAN算法需用户设置参数值、易产生挖掘结果偏差等不足,提出改进算法DBTC(density-basedtextclustering),该算法不仅能够发现任意形状的簇,还有效地解决了基于密度的
为了提高图像语义特征提取的精确度,克服目前大部分图像语义特征提取算法中,因图像特征提取不当,导致特征参数不能全面反映图像语义的问题,提出了一种基于典型相关分析CCA的特征融合的图像语义特征提取方法。该
针对图档管理的一体化问题,提出了多维文档管理的模式,从文档结构视图、文档类型视图、地理信息视图、文件版本视图4个维度来对文档进行描述、管理和控制。以文档为载体,将地理信息和文档的其它属性有机地结合起来
输入一个url或者string型的网页源码,通过该工具即可得到想要的正文信息,例如提取各大门户网站的新闻,历史,娱乐等的正文信息。网页正文提取工具,这是目前销量最高,提取一个网页正文信息只需要毫秒级的
资源介绍:源码根据《基于行块分布函数的通用网页正文抽取算法》,创建正则VBScript.RegExp对象实现网页正文提取。资源图片:资源作者:
暂无评论