OpenAI最新发布的GPT-4和国内百度的生成式大模型“文心一言”受到了广泛关注。为了评估它们在不同领域的性能,我们对GPT-3.5、GPT-4和文心一言进行了比较,测试领域包括常识和创作、归纳和推理、数学和代码、以及应用。结果表明,三个模型在常识和创作问题中表现相似,但在归纳和推理方面存在差异。GPT-3.5在数学和代码问题中表现更好,但文心一言在图像生成方面的能力更出色。具体差异请参考全文。