脚本实现的功能包括:数据下载,解压,使用摩西对语料进行切分以及符号标准化。并使用bpe对单词切分,处理完成的训练集包含360M条。