我们详细介绍了GPT-4的开发,这是一个能够接受图像和文本输入并生成自然语言文本输出的大规模多模态模型。尽管在现实场景中不如人类表现,但GPT-4在各种专业和学术基准测试中展现出与人类水平相近的性能,比如模拟律师考试的前10%。作为基于Transformer模型的一个组成部分,GPT-4经过预训练,可以预测文档中下一个令牌的可能性。通过调整模型的训练过程,我们改进了其真实性和对期望行为的遵守程度。在开发过程中,我们重点关注基础设施和优化方法的开发,以在不同规模上获得可预测的效果。基于比GPT-4计算量小1000倍的模型,我们能够准确预测GPT-4的性能。本技术报告的导言介绍了GPT-4作为一个大型多模态模型的重要性,它能够处理图像和文本输入,并生成自然语言文本输出。这些模型具有广泛应用的潜力,如对话系统、文本摘要和机器翻译。因此,近年来人们对其进行了广泛研究,并取得了显著进展【1-28】。