DeBERTa:注意力分散的增强解码的BERT 这个软件库的正式实施 消息 2/03/2021 DeBERTa v2代码和900M,1.5B现在在这里。这包括用于我们的SuperGLUE单模型提交并达到89.9的1.5B模型,而人类基线为89.8。您可以在我们的找到有关此提交的更多详细信息 v2的新功能 词汇在v2中,我们使用了根据训练数据构建的大小为128K的新词汇。代替GPT2分词器,我们使用词器。 nGiE(nGram诱导输入编码)在v2中,除了第一个转换器层之外,我们还使用了额外的卷积层,以更好地学习输入令牌的本地依赖性。我们将在此功能上添加更多的消融研究。 在关注层中将位置投影矩阵与内容投影矩阵共享在我们先前的实验的基础上,我们发现这可以保存参数而不影响性能。 应用存储桶对相对位置进行编码在v2中,我们使用对数存储桶对类似于T5的相对位置进行编码。 900M模型和1.5