爬虫工具,用于获取平行语料
通过爬得的网页来获取平行网页,java语言开发的,开源
用户评论
推荐下载
-
中英平行语料
UNparallelcorpus.15,886,041linescasia2015:1,050,000linescasict2015:2,036,833linesdatum2015:1,000,003
29 2019-07-08 -
平行语料用于机器翻译等的预处理语料
平行语料库,用于机器翻译等的预处理语料。 汉英双语语料和德英双语语料,可以用来训练NMT模型,谨供学术实验用
59 2018-12-18 -
python语料爬虫
做自然语言处理时需要语料来做训练集,利用这个爬虫程序可以很方便的获取语料。
39 2019-05-16 -
中英平行语料库.zip
中英文平行语料库,用于机器翻译,问答系统等模型的预处理语料
44 2019-09-09 -
中英平行语料50000句.rar
语料来源为WMT18,本资源包含中英文的平行语料50000句,以及简单预处理后的文件。中文预处理:去除标点、数字,分词;英文预处理:去除标点、数字,大小写转换。可以用来做简单的神经机器翻译练习使用。
21 2020-06-07 -
中英平行语料共20万句可用于训练机器翻译
中文英文的平行语料,来源于niutrans语料,总共20万句(中文10万英文10万),该语料可用于机器翻译等的训练。
12 2020-08-11 -
平行语料中英数据对齐清洗
针对中英数据对齐的清洗,提高对齐质量,附带代码包含对中英序号不匹配,长数字不匹配等问题进行清洗!
30 2019-10-12 -
中英平行语料库八万对句粒度
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。句粒度,但有不少长句,裁剪后5w对也够用。原始数据集也在包中,其
64 2019-09-03 -
NiuTrans中英平行语料库10万句
NiuTrans的开源中英平行语料库,可以用来训练机器翻译。
326 2018-12-18 -
代码获取平常HTMLJSP查看代码JS文件
网页代码获取工具 平常HTML,JSP查看代码,JS文件
22 2019-01-15
暂无评论