2016年新闻中文文本.txt

paker59574 47 0 TXT 2020-08-12 11:08:00

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。

用户评论

暂无评论

中文文本分类语料训练测试全集复旦

本资源是复旦大学中文文本分类预料压缩包，包含训练与测试全集。

14 2020-04-20
复旦大学中文文本分类数据集

本语料库由复旦大学李荣陆提供。train.zip共9804篇文档，test.zip共9832篇文档，都分为20个类别。下载后可以自己重新切分数据，也可以直接用。免费下载地址：链接:https://pa

39 2019-09-07
中文文本分类语料复旦完整版

中文文本分类语料（复旦）-训练集和测试集这个链接是训练集，本语料库由复旦大学李荣陆提供。test_corpus为测试语料，共9833篇文档；train_corpus为训练语料，共9804篇文档，两个

105 2018-12-08
中文文本预处理k_means聚类

课程作业，是对中文文本的获取、删除特殊符号、删除停用词、分词、最后计算文本之间的相似度、降维、Kmeans聚类以及可是化等

23 2019-01-10
复旦大学中文文本分类语料.xlsx

复旦大学中文文本分类语料.xlsx

84 2020-08-20
复旦中文文本分类语料库.zip

本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料

16 2020-08-30
论文研究中文文本压缩的LZW算法.pdf

结合中文文本中的汉字编码方式、大字符集以及重复字串不长三个不同于英文文本的结构特点对LZW算法从读取数据方式、基本码集和字典码值输出方式三方面进行了修改。改进后的算法对中文文本的压缩比平均比LZW19

14 2020-07-17
中文文本语义相似度计算研究及应用

中文文本相似度讨算是中文信息处理相关研究领域中的重要基础，在信息检索、知识挖掘、舆情分析等领域中有着广泛应用。目前的中文文本相似度计算方法大多是从文本的字形层面而不是从文本内容语义理解上计算

17 2020-07-17
复旦大学中文文本分类测试集

内部是复旦大学中文文本分类测试集，含有多个行业类型，2积分是全网比较低

30 2019-03-04
中文文本分类语料_训练测试全集_复旦

本资源是复旦大学中文文本分类预料压缩包，包含训练与测试全集。

58 2018-12-25

2016年新闻中文文本.txt

用户评论

推荐下载