适用于GPT2和T5的具有模型并行性的变压器 这是主变压器库上的一个分支,使您可以在多个设备上分配gpt2-xl , t5-3b和t5-11b等超大型模型的关注块,从而使您可以微调大型变压器。 在HuggingFace团队能够将我的更改合并到主库中之前,我将保留此存储库。 通常,大型变压器的性能要比其较小的同类产品好得多。 模型并行性由模型上的两种方法控制,如下所示: from transformers import GPT2LMHead model = GPT2LMHead('gpt2-xl') device_map = {0: [0, 1, 2, 3, 4, 5, 6, 7, 8],