基于归纳学习和汉字汉字映射表的汉日命名实体对等提取方法
命名实体翻译等效项提取在机器翻译(MT)和跨语言信息检索(CLIR)中起着至关重要的作用。 传统方法通常基于大规模并行或可比语料库。 但是,这些研究的适用性受到限制,主要是因为缺乏所需规模的平行语料库,特别是对于中文和日文的语言对。 在本文中,我们提出了一种基于中文和日文特征的方法,该方法基于单语语料库中的归纳学习(IL),自动提取中日命名实体(NE)的翻译对等词。 该方法采用中文汉字和日语汉字映射表(HKMT)来计算日语和汉语之间NE实例的相似性。 然后,通过从中文和日语的高相似性NE实例中提取不同部分,我们使用IL来获取NE的部分翻译规则。 最后,反馈处理将更新中文和日语NE实体相似性和规则集。 实验结果表明,该方法简单有效,克服了传统方法严重依赖双语资源的不足。 与其他方法相比,我们的方法将中文和日语的语言特征与IL结合使用,以自动提取NE对。 我们使用弱相关双语文本集和最少的附加知识来提取NE对有效地减少了构建语料库的成本和对附加知识的需求。 我们的方法可能有助于使用单语语料库构建大规模的汉日NE翻译词典。
用户评论
推荐下载
-
命名实体识别ccks2020数据集
命名实体识别数据集ccks2020
10 2023-02-03 -
NER命名实体识别自动注释算法源码
命名实体识别 任务定义 在命名实体识别中,人们试图在文本中找到与专有名称(不包括TIME和MONEY)相对应的字符串,并对这些字符串表示的实体类型进行分类。 这个问题之所以难以解决,部分原因是句子分割
22 2021-05-08 -
msra命名实体语料BIO schema.zip
2006年,微软亚洲研究院(Microsoft Research Asia, MSRA)发布的BIO格式标注语料,共计46365条。
14 2021-04-20 -
随机条件场域命名实体抽取ppt
我做的 随机条件场 域 命名实体抽取的ppt。
36 2019-01-02 -
电子病历命名实体识别和实体关系抽取研究综述杨锦锋
电子病历(Electronicmedicalrecords,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信
26 2019-07-14 -
基于小波的车牌汉字特征提取
基于小波的车牌汉字新型特征提取方法,更加方便有效。
22 2019-07-07 -
ChineseNER中文命名实体识别实体抽取tensorflowpytorchBiLSTM加CRF源码
中文NER 本项目使用 python 2.7 张量流1.7.0 火炬0.4.0 对命名实体识别不了解的可以先看一下这篇。顺便求star〜 这是最简单的一个命名实体识别BiLSTM + CRF模型。 数
39 2021-02-18 -
论文研究基于感知机模型藏文命名实体识别.pdf
藏文命名实体识别是藏文分词和标注系统中必须要解决的问题。通过对命名实体构词规律及分词歧义进行分析,提出基于音节特征感知机训练模型的藏文命名实体识别方案。重点研究了利用藏文紧缩格识别音节的方法,命名实体
14 2020-07-16 -
zh NER TF用于中文命名实体识别的非常简单的BiLSTM CRF模型中文命名实体识别TensorFlow源码
用于中文命名实体识别的简单BiLSTM-CRF模型 该存储库包含用于为中文命名实体识别任务构建非常简单的基于字符的BiLSTM-CRF序列标签模型的代码。 其目标是识别三种类型的命名实体:PERSON
28 2021-02-09 -
汉字图形字模提取软件
功能强大的汉字 图形字模提取软件 01。文字输入区输入的文字可以多行输入,每一行的文字数目不限。 02。文字输入完毕后,用Ctrl+Enter结束输入,不再提供工具按钮。 03。取模原则:以字节为单位
14 2020-11-12
暂无评论