2016年新闻中文文本.txt
包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。 数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。 可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。
用户评论
推荐下载
-
中文文本分类语料训练测试全集复旦
本资源是复旦大学中文文本分类预料压缩包,包含训练与测试全集。
14 2020-04-20 -
复旦大学中文文本分类数据集
本语料库由复旦大学李荣陆提供。train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。下载后可以自己重新切分数据,也可以直接用。免费下载地址:链接:https://pa
39 2019-09-07 -
中文文本分类语料复旦完整版
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个
105 2018-12-08 -
中文文本预处理k_means聚类
课程作业,是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等
23 2019-01-10 -
复旦大学中文文本分类语料.xlsx
复旦大学中文文本分类语料.xlsx
84 2020-08-20 -
复旦中文文本分类语料库.zip
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料
16 2020-08-30 -
论文研究中文文本压缩的LZW算法.pdf
结合中文文本中的汉字编码方式、大字符集以及重复字串不长三个不同于英文文本的结构特点对LZW算法从读取数据方式、基本码集和字典码值输出方式三方面进行了修改。改进后的算法对中文文本的压缩比平均比LZW19
14 2020-07-17 -
中文文本语义相似度计算研究及应用
中文文本相似度讨算是中文信息处理相关研究领域中的重要基础, 在信息检索、 知识挖掘、 舆情分析等领域中有着广泛应用。 目前的中文文本相似度计算方 法大多是从文本的字形层面而不是从文本内容语义理解上计算
17 2020-07-17 -
复旦大学中文文本分类测试集
内部是复旦大学中文文本分类测试集,含有多个行业类型,2积分是全网比较低
30 2019-03-04 -
中文文本分类语料_训练测试全集_复旦
本资源是复旦大学中文文本分类预料压缩包,包含训练与测试全集。
58 2018-12-25
暂无评论