暂无评论
基于词向量语义分类的微博实体链接方法,冯冲,石戈,微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言任务.由于微博内容简短,传统长�
研究了一种基于核的最大散度差准则的文本特征抽取方法。首先回顾了文本分类中特征降维的主要方法、Fisher准则及其相关研究进展以及存在的问题;然后分析了基于散度差准则的线性鉴别方法的优点与不足,借助于核
在分析中文印刷文档版式及字符特征的基础上,提出了一种将决策树与BP神经网络相结合的数学公式抽取方法。采用决策树方法将孤立公式从文档中抽取出来,采用BP神经网络方法定位内嵌公式。实验表明,该抽取方法对中
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏
基于网页分块的BBS评论信息抽取技术,贾璐璐,肖波,随着互联网的迅猛发展,人们对互联网技术和互联网上的大量资源的关注越来越多,人们期望能够从海量的互联网信息中快速精确的提取��
基于双语语料的汉语多词表达抽取,胡玉溪,江会星,随着自然语言的发展,多词表达越来越成为人们关注的焦点。本文提出一种基于中英文双语语料获取非特定结构的汉语多词表达的方法。
领域本体形式背景的分析抽取、定义本体领域属性的核心概念是构建领域本体的关键。应用概念格模型表示领域知识,引入P-集合理论进行形式背景的定义和领域属性分析,根据领域中个体相似度矩阵对形式背景的领域属性进
生物医疗文本中的命名实体识别对于构建和挖掘大型临床数据库以服务于临床决策具有重要意义,而其中一个基础工作是疾病名称的识别。医疗文本中存在大量的复合疾病名称,难以分离抽取出其中的实体。针对这一问题,提出
传统的弱指导关系抽取研究主要集中于单语言内部。为了充分利用语言之间的互补性来减轻对大规模训练数据的需求,提出一种双语协同训练的关系分类方法。针对小规模标注语料和一定规模的未标注语料,通过机器翻译和实体
介绍了一个中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利
暂无评论