中文-变形金刚-XL 正在施工:construction: 本项目提供了智源研究院“文汇”预训练模型中国变压器-XL的预训练和文本生成代码。 数据 本模型使用了智源研究院发布的中文预训练语料 。具体地,我们使用了WuDaoCorpus中来自百度百科+搜狗百科(133G),知乎(131G),百度知道(38G)的语料,一共303GB数据。 模型 本模型使用了的训练目标,同时使用能够更好地处理长序列建模的替代了GPT中的Transformer。模型的结构与GPT-3 2.7B(32层,隐示尺寸2560 ,,每层32个关注头)的基本相同,因为Transformer-XL的结构尺寸,模型参数增加到了29亿。 结果 为了验证模型的生成能力,我们在中文的开放域长文问答上进行的评价。我们从上随机选择了100个不同领域的,没有训练语料中的问题。对每个问题,由人类测试成员对一个高层次数回答,3个模型生成的回答和3个生成的回答在