一台机器上的BERT MULTI GPU,无水平 BERT:用于语言理解的深度双向变压器的预训练 需求 python 3 张量流1.14 训练 0,在create_pretraining_data.py和run_pretraining_gpu.py编辑输入和输出文件名 1,运行create_pretraining_data.py 2,运行run_pretraining_gpu.py 参数 编辑n_gpus在run_pretraining_gpu.py batch_size是每个GPU的batch_size,而不是global_batch_size 数据 在sample_text.txt