deep learning Pre training Chinese data set:深度学习中文语料 源码
深度学习预训练中文数据集 国内公开的中文语料太少了,可以说是寥寥无几,大厂和机构缺少语料共享精神。 训练语料的缺失给学习研究深度网络模型从业者带来困扰,获取预训练语料带来额外成本。 这份语料可以降低训练模型的成本,让学习研究者只需要关注模型结构的研究,加速我国AI进展。 该项目为国内最大的公开深度网络模型预训练中文语料,该语料可以用来训练bert模型。 该语料由多个文本语料组成,大约22G。每个文本文件中每篇文章由\r\n分开,每篇文章中每段文本由\n分开。 数据均来源于网络,仅供研究学习使用,请勿做商业用途。 语料1: (访问密码:5129) 语料2: (访问密码:5129) 语料3: (访问密码:5129) 语料4: (访问密码:5129) 语料5: (访问密码:5129) 语料6: (访问密码:5129) 语料7: (访问密码:5129) 语料8: (访问密码:5129) 语料9: