推荐下载
-
中英平行语料库
一万句对齐的中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料。
34 2019-05-25 -
NiuTrans中英平行语料库10万句
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
15 2019-02-22 -
平行语料库用于机器翻译等的预处理语料
汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
97 2018-12-18 -
中英平行语料库八万对句粒度
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。句粒度,但有不少长句,裁剪后5w对也够用。原始数据集也在包中,其
58 2019-09-03 -
藏语语料库预处理研究
藏语语料库预处理研究
10 2021-02-10 -
中英平行语料50000句.rar
语料来源为WMT18,本资源包含中英文的平行语料50000句,以及简单预处理后的文件。中文预处理:去除标点、数字,分词;英文预处理:去除标点、数字,大小写转换。可以用来做简单的神经机器翻译练习使用。
17 2020-06-07 -
ChatGPT语料库准备与预处理攻略
使用ChatGPT技术时,语料库的准备与预处理是关键步骤。首先,需要收集高质量的语料数据,确保其多样性、丰富性和相关性。接着,对语料进行清洗,去除噪音、冗余和无关信息。之后,进行分词、去停用词等预处理
4 2024-05-11 -
TED平行语料库数据集
TED平行语料库是一个多语言平行语料库,包括多语言并行语料库和单语语料库。该语料库从TED会议中提取了109种世界语言的文本数据。多语言的平行语料库包括12种语言,涵盖了超过1.2亿个对齐句子,并且这
0 2024-08-17 -
英语语料库LOB语料库
LOB语料库 创建时间: 1970年代初 创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学 规模层级: 100万词次 基本情况:研究当代英国英语,与美国英语对比,使用了TAG
163 2018-12-07 -
一个面向信息抽取的中英文平行语料库
一个面向信息抽取的中英文平行语料库
8 2021-03-15
用户评论