基于Transformer的模型目前在NLP中得到了广泛的应用,但我们对它们的内部工作原理仍然知之甚少。本文综合了40多项分析研究,对著名的BERT模型(Devlin et al 2019)的已知情况进行了描述。我们还提供了对模型及其训练机制的拟议修改的概述。然后我们概述了进一步研究的方向。