wmt2021 WMT 2021的存储库 获取数据 ./scripts/get_data.sh -c paracrawl ./scripts/get_data.sh -c reuters 创建小型语料库 ./scripts/preprocess_small_sample.sh 解压缩数据并拆分以进行训练,开发和测试 ./scripts/preprocess_data.sh 脚本运行完成后,您将获得以下句子计数:JA PARACRAWL TRAIN句子的总数为1292000 EN PARACRAWL TRAIN句子的总数为1292000 JA PARACRAWL DEV句子的总数为5000