Chinese Transformer XL 源码
中文-变形金刚-XL 正在施工:construction: 本项目提供了智源研究院“文汇”预训练模型中国变压器-XL的预训练和文本生成代码。 数据 本模型使用了智源研究院发布的中文预训练语料 。具体地,我们使用了WuDaoCorpus中来自百度百科+搜狗百科(133G),知乎(131G),百度知道(38G)的语料,一共303GB数据。 模型 本模型使用了的训练目标,同时使用能够更好地处理长序列建模的替代了GPT中的Transformer。模型的结构与GPT-3 2.7B(32层,隐示尺寸2560 ,,每层32个关注头)的基本相同,因为Transformer-XL的结构尺寸,模型参数增加到了29亿。 结果 为了验证模型的生成能力,我们在中文的开放域长文问答上进行的评价。我们从上随机选择了100个不同领域的,没有训练语料中的问题。对每个问题,由人类测试成员对一个高层次数回答,3个模型生成的回答和3个生成的回答在
文件列表
Chinese-Transformer-XL-master.zip
(预估有个80文件)
Chinese-Transformer-XL-master
docker
prepare.sh
753B
Dockerfile
10KB
ssh-env-config.sh
4KB
Dockerfile-cuda101
10KB
pretrain_bert.py
20KB
gpt2_data_loader.py
8KB
arguments.py
21KB
pretrain_gpt2.py
30KB
暂无评论