知乎文本分类竞赛数据集12

wolffool 43 0 RAR 2019-02-16 23:02:23

https://biendata.com/competition/zhihu/ 参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型。标注数据中包含 300 万个问题，每个问题有 1 个或多个标签，共计1999 个标签。每个标签对应知乎上的一个「话题」

推荐下载

包含多种类别,如政治、经济、体育、计算机、教育等等

由复旦大学李荣陆提供。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。train.zip为训练语料,共9804篇文档,分为20

内部是复旦大学中文文本分类测试集,含有多个行业类型,2积分是全网比较低

内部是复旦大学中文语料,含有多种行业类型,非常适合NLP学习使用,2个积分全网算是比较低

这个链接是测试集,训练集请见我的资源本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档；train_corpus.rar为训练语料,共9804篇文档,两个预料各分

文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类

包含四个数据集,分别从english20newsgroup、reuters中提取,分别为500条记录,各含五类,每类文档数目不同!从两个母数据库中提取,存储为sqlserver2008格式,可以直接附

由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档；train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少

用户评论

请输入评论内容

评分：

暂无评论