生成式预训练模型ChatGPT自2018年诞生以来,经历了三个大版本的阶段演进。 GPT-1作为首个版本,在引入有监督的微调训练的基础上呈现出了潜力。2019年,GPT-2的推出着重于提高模型的通用性,通过强调更大的参数量和多任务训练,实现了零样本学习能力。进入2020年,GPT-3以少量样本学习代替零样本学习,并将训练参数增加到惊人的1750亿,使模型的表现性能再次得到提升。随着2022年的到来,InstructGPT引入了基于人类反馈的强化学习方法,结合GPT-3进行奖励训练,使用了13亿训练参数,从而实现了更好的模型性能。该模型在2022年11月基于InstructGPT的基础上推出了对话交互式模型ChatGPT,并在短短5天内吸引了超过100万用户。GPT-1阶段开创了生成式预训练模型的时代,采用了Transformer架构,并保留了架构中的解码器部分。预训练过程包括预训练和微调两个阶段,其中预训练过程将包含长段连续文本的数据用于模型的训练。