本篇报告详细介绍了GPT-4大规模的多模态模型,它能够接受图像和文本输入并且产生文本输出。虽然在现实世界的许多场景中表现不如人类,但在各种专业和学术基准上表现出人类水平,包括在模拟律师考试中获得大约前10%的分数。GPT-4基于Transformer模型,经过预训练,能够预测文档中的下一个令牌。经过训练调整后,它展现出更加真实的性能和更好的期望行为的遵守程度。本项目的基础设施和优化方法能够在广泛的规模范围内表现得可预测,这使得我们能够根据计算量不超过GPT 4的1/1000的模型准确预测GPT 4性能的某些方面。