InstructGPT的衍生产品ChatGPT,使用了人类反馈纳入训练过程中的强化学习方法,提升了模型的输出与用户意图的匹配程度。在openAI的论文中,详细介绍了这种以人类反馈为基础的训练方法,能够带来更好的效果。本文将简单介绍ChatGPT模型的反馈训练方法及其优越性。