GPT3复现为何一直失败

heiress6833 14 0 zip 2023-05-08 09:05:02

无论是OPT-175B还是BLOOM-176B,所有公开的GPT-3复现模型都未能达到原模型的性能。不过,在“失败”中仍有值得借鉴的教训,如多次尝试各种训练设置或提升硬件配置等。但要注意,由于训练过程消耗巨大,建立类似OPT-175B的模型需要在约1000个80G A100 GPU上花费至少2个月时间。虽然有一些模型在某些任务上表现匹配GPT-3甚至更好,但仍有待进一步验证和探究。

用户评论
请输入评论内容
评分:
暂无评论