数据源主要为 Europarl 语料库和联合国语料库,并包含 2018 年从 News Commentary 语料库任务中重新抽取的文章。此数据集由 EMNLP 会议提供,用作许多论文效果的基准测试。WMT2018 提供了超过 1000 万个英中句子对作为数据集,所有句子对均经过人工检查,在规模、相关性和质量上都得到保证。