使用bert作为编码器和变压器解码器的抽象总结 我使用了一个名为Texar的文本生成库,它是一个漂亮的库,具有许多抽象,我想说这是scikit学习的文本生成问题。 该体系结构背后的主要思想是使用来自预训练的BERT的转移学习和掩蔽的语言模型,我用BERT编码器代替了Encoder部分,并且从头开始训练了除草器。 使用Transfomer Networks的优点之一是训练比基于LSTM的模型要快得多,因为我们可以消除Transformer模型中的顺序行为。 基于变压器的模型会生成更多语法正确且连贯的句子。 运行模型 wget https://storage.googleapis.com/b