中文新闻数据语料
这是本人自己爬取的今日头条新闻数据。包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。每个类别有2000左右的数据。包含有新闻的题目,正文。还有一些类别中包含了新闻的发布时间,新闻来源等信息。
用户评论
推荐下载
-
中文人名语料库r.zip
中文人名语料库。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
23 2020-03-06 -
复旦中文文本分类语料训练集
由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少
46 2020-04-20 -
维基中文百科语料库
这是中文维基百科数据,截至2019年5月20日,官网比较难下载,因此分享出来,可以用7-zip软件解压出来,希望对大家有帮助!
33 2019-09-12 -
中文文本分类语料复旦_训练集
共50.38MB。本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。
968 2018-12-08 -
libsvm中文文本分类语料库
libsvm中文文本分类语料库自动分类
22 2020-06-08 -
完整版复旦中文语料库
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然语言处理小组;由复旦大学李荣陆提供;test_corpus.rar为测试语料,train_corpus.rar为训练语料。
39 2020-07-16 -
ChnSentiCorp中文情感分析酒店评论语料
说明:谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集:1.ChnSentiCorp-Htl-ba-200
72 2019-07-14 -
Python中文自然语言处理的语料集合
中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。
57 2019-08-13 -
中文短文本情感分析语料外卖评价
短文本情感分析语料,某外卖平台收集的用户评价,正负各8000条,共16000条
45 2019-05-04 -
中文情感挖掘的酒店评论语料
1.ChnSentiCorp-Htl-ba-2000:平衡语料,正负类各1000篇。2.ChnSentiCorp-Htl-ba-4000:平衡语料,正负类各2000篇。3.ChnSentiCorp-H
63 2019-05-13
暂无评论