GPT(Generative Pre-training Transformer)是由OpenAll于2018年6月首次提出的,该模型考虑到自然语言理解中的各种任务。尽管存在丰富的未标记文本语料库,但用于学习特定任务的标记数据却很少,这导致已经经过区分性训练的模型很难在这些任务上表现出色。而大多数深度学习方法需要大量手动标记的数据,这限制了它们在缺乏注释资源的领域的应用。在考虑到这些局限性的前提下,GPT论文证明了通过对未标记文本语料库进行生成性预训练,并在每个特定任务上进行区分性微调,可以在这些任务上取得巨大的收益。与先前的方法不同,GPT在微调期间采用任务感知输入转换,以实现有效的知识传递,并对模型架构进行最小化的改动。