本文探讨了大型人工神经网络学习的语言结构知识,通过自监督训练,该模型简单地尝试预测给定上下文中的一个掩蔽词。人类的语言交流是通过词语序列进行的,但是语言理解需要构建丰富的从未被明确观察到的层次结构。这一机制一直是人类语言习得的一个主要奥秘,而工程工作主要是通过在树堆上有监督的句子学习来完成的,这些句子是手写标记的这种潜在结构。