2015路透社新闻数据集,可以测试用没有问题
CCF2019数据,全部试用人工标注,4039条,包含content和label。可以作为文本分类的测试集。
该资源包含亚马逊四个领域的商品销售信息数据,有books,dvd,electronics,kitchen&housewares;四个领域,是目前权威的多领域文本情感分类的数据源,这些数据原版是网页标签
包含多种类别,如政治、经济、体育、计算机、教育等等
主要用到的两个功能函数是model和[predicted_label, accuracy, prob_estimates],首先是将提取的5个训练集的特征值转换成一个50000*512的矩阵Train
该数据集包括经过标记的猫狗分类图像数据,已划分为测试集和训练集,可用于机器学习和数据挖掘领域的图像分类任务。数据集中的图像已经经过专业标注,可以用于训练和评估分类算法的性能。测试集和训练集的划分保证了
14搜狐新闻汽车类别数据数据集数据集该数据集是搜狐新闻的汽车类别的历史文章数据,大小为2.11G,可以选择性使用地来探索汽车领域的相关数据,例如文本分类,情感分析等。http://unopencity
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的
适合做文本分类,软件杯
answer文件夹为测试语料,共9833篇文档;train文件夹为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使