2016年新闻中文文本.txt 包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。 数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。 可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练