wmt2021:WMT 2021的存储库 源码
wmt2021 WMT 2021的存储库 获取数据 ./scripts/get_data.sh -c paracrawl ./scripts/get_data.sh -c reuters 创建小型语料库 ./scripts/preprocess_small_sample.sh 解压缩数据并拆分以进行训练,开发和测试 ./scripts/preprocess_data.sh 脚本运行完成后,您将获得以下句子计数:JA PARACRAWL TRAIN句子的总数为1292000 EN PARACRAWL TRAIN句子的总数为1292000 JA PARACRAWL DEV句子的总数为5000
文件列表
wmt2021-main.zip
(预估有个24文件)
wmt2021-main
initial_reports
Project_Proposal_shinkam2.pdf
151KB
report_gianghl2.pdf
142KB
scripts
parallel_processing.sh
2KB
process_ja.sh
2KB
process_en.sh
2KB
add_voice.py
4KB
build_vocab.sh
2KB
暂无评论