目录 BERTweet:英语推文的预训练语言模型 BERTweet是第一个为英语Tweets预先训练的公共大规模语言模型。 BERTweet使用与相同的模型配置,根据预训练过程进行训练。 用于预训练BERTweet的语料库由850M的英语Tweets(16B单词令牌〜80GB)组成,包含从01/2012到08/2019流的845M Tweets和与COVID-19大流行相关的5M Tweets。 BERTweet的性能优于其竞争对手的基于RoBERTa的和基于并且在词性标记,命名实体识别和文本分类的三个下游Tweet NLP任务上均优于以前的最新模型。 BERTweet的一般架构和实验结