介绍了chatGPT模型与gpt系列的关系,阐述了该模型的优点和特点,以及通过reinforcement learning from human feedback (RLHF)的方法让模型更清楚该生成什么样的答案。论文的结论指出,相较于GPT3,标注人员更喜欢InstructGPT的输出,InstructGPT比GPT3更诚实。