随着ChatGPT等大型语言模型的发布,人们开始探讨使用“RLHF训练(基于人类反馈的强化学习训练)”的重要性。在训练语言模型时,为什么强化学习比从演示中学习(即监督学习)更优呢?我提出了一个有说服力的理论论据。同时,还有另一个论点支持强化学习训练,并且特别适用于ChatGPT等模型。OpenAI的John Schulman在其演讲中详细介绍了该论点。本文引用了John的论点并增加了一些他未明确表述的内容,这些内容应该是John进行过考虑的。为了确保读者更好地理解本文,提供了大量背景知识。如果您只关注重点,请直接查看“核心论证”部分。此外,还简要解释了监督学习和强化学习的背景,以便我们能够达成共识。预训练是在这两种设置中的第一步,我们假设语言模型在大量文本上进行预训练,以预测下一个词。因此,对于每个词序列,我们都有一个模型,可以为潜在的下一个词选项分配概率。