deep learning Pre training Chinese data set:深度学习中文语料源码

elephant_95798 7 0 ZIP 2021-05-11 12:05:27

深度学习预训练中文数据集国内公开的中文语料太少了,可以说是寥寥无几,大厂和机构缺少语料共享精神。训练语料的缺失给学习研究深度网络模型从业者带来困扰,获取预训练语料带来额外成本。这份语料可以降低训练模型的成本,让学习研究者只需要关注模型结构的研究,加速我国AI进展。该项目为国内最大的公开深度网络模型预训练中文语料,该语料可以用来训练bert模型。该语料由多个文本语料组成,大约22G。每个文本文件中每篇文章由\r\n分开,每篇文章中每段文本由\n分开。数据均来源于网络,仅供研究学习使用,请勿做商业用途。语料1: (访问密码:5129) 语料2: (访问密码:5129) 语料3: (访问密码:5129) 语料4: (访问密码:5129) 语料5: (访问密码:5129) 语料6: (访问密码:5129) 语料7: (访问密码:5129) 语料8: (访问密码:5129) 语料9: