推荐下载
-
20Newsgroups
在学习文本聚类算法中,常用的数据集就是20Newsgroup,该数据集包含8个类,每个类1000个文本,共计8000个文本。我根据tf-idf,将数据分别提取成100维,200维和1000维数据集。而
19 2019-01-13 -
20Newsgroups数据集包括20news_1999720news_bydate和20news_18828三个数据集
20Newsgroups数据集是大约20,000个新闻组文档的集合,在20个不同的新闻组中几乎均匀划分。20Newsgroups数据集已经成为机器学习技术相关实验的常用数据集,例如文本分类和文本聚类实
92 2019-05-06 -
新闻分类语料
新闻分类语料,9个类别财经,教育,军事,科技,政治等按新闻标签爬取的。
47 2019-05-17 -
中文新闻数据语料
这是本人自己爬取的今日头条新闻数据。包括了6个类别:军事,体育,娱乐,时尚,汽车,游戏。每个类别有2000左右的数据。包含有新闻的题目,正文。还有一些类别中包含了新闻的发布时间,新闻来源等信息。
35 2019-05-15 -
搜狗新闻语料库
搜狗的新闻中文语料库,可用于word2vec训练用的。。。。。。。。。。。。。。。。。。。。。。。。
81 2018-12-08 -
sklearn文本分类数据包20newsgroups20newsbydate
20newsgroups数据集有三个版本。第一个版本19997是原始的并没有修改过的版本。第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集,不包含交叉文档和新闻组名(新
25 2020-05-13 -
已预处理NLP英文语料库新闻组20_Newsgroup单标签英文平衡语料
已做预处理:分词、剔除停用词可直接拿来统计建立文本模型
49 2019-05-21 -
复旦新闻语料库训练集
复旦大学新闻语料库,此为训练集。使用请注明来源:复旦大学计算机信息与科学技术系国际数据库中心自然语言处理小组
62 2019-03-08 -
搜狐新闻中文语料已分类整理
在搜狗实验室下载的搜狐新闻数据整理后的一部分中文分类语料~
38 2019-05-21 -
自然语言处理语料库网易新闻
自己提取的,纯度比较高,欢迎大家下载使用
39 2018-12-09
用户评论