论文研究构建和剖析中英三元组可比语料库.pdf

qq_31102354 8 0 PDF 2020-07-19 00:07:33

由于受到翻译腔的影响，中英平行语料库存在固有的扭斜的语言模型。显然，用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型，严重影响到应用系统的性能。为了克服平行语料库固有的缺陷，提出构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术，使用统计和规则相结合的方法，对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上，利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双语资源，实现改进和发展机器翻译等自然语言的处理应用。

资源预览

用户评论

暂无评论

语料库tccorpusanswer

作为训练使用的语料库

26 2020-05-14
邮件语料库

用于邮件分类的语料库

27 2020-05-18
语料库.zip

语料库资源里有网上购酒评论，分为积极评论与消极评论；资源里还包括中文停用词1800+

33 2020-03-06
英文语料库

用于英文分类的测试集和训练集应用，分词，去停用词处理

48 2018-12-07
情感语料库

用于语音情绪识别的语料库资料，还是蛮好的。希望用于模式识别的同学们能够用得到。

101 2018-12-07
搜狗语料库

搜狗语料库

53 2018-12-08
COCA语料库

COCA20000高频词汇。COCA=CorpusofContemporaryAmericanEnglish(COCA)这是英语国家使用频率最高的词汇集合。从众多语料库（corpus）中提取。用大数据

78 2019-05-25
ohsumed语料库

OHSUMED数据集合由WilliamHersh和他的同事们一起建立，其文档来源于医药信息数据库MEDLINE10，它包含了从1987年到1991年五年间270个医药类杂志的标题和/或摘要，包含了34

99 2019-07-30
NBCorpus语料库

NBCorpus英文语料库已近做好分词，但是未去除停用词。

36 2019-07-30
新闻语料库

包含2015年一整年的新闻，文件以txt形式存储，是从各大网站上爬取下来的。希望喜欢

77 2019-05-03

论文研究 构建和剖析中英三元组可比语料库.pdf

资源预览

用户评论

推荐下载

论文研究构建和剖析中英三元组可比语料库.pdf