sklearn文本分类数据包20newsgroups20news18828
20newsgroups数据集有三个版本。第一个版本19997是原始的并没有修改过的版本。第二个版本bydate是按时间顺序分为训练(60%)和测试(40%)两部分数据集,不包含交叉文档和新闻组名(新闻组,路径,隶属于,日期)。第三个版本18828不包含交叉文档,只有来源和主题名。
用户评论
推荐下载
-
复旦大学文本分类数据集
复旦大学中文语料分类数据 3个子文档 一共有19666个文档 是很好的分类语料库
60 2019-01-10 -
词典包含用于文本分析的词典和词典的数据包源码
词典:包含用于文本分析的词典和词典的数据包
16 2021-02-27 -
文本分类模型处理流程
文本分类模型处理流程 1.样本整理 2.数据预处理 直接按照字符处理可以使用keras的api Tokenizer(char_level=True) 建立字符数字索引 text_to_sequence
15 2021-01-16 -
中文文本分类器
WordFeature 一个文本分类器 希望对大家有用
22 2020-09-12 -
文本分类训练集.rar
文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理
23 2020-08-21 -
LIBSVM学习文本分类
NULL博文链接:https://luchi007.iteye.com/blog/2267674
29 2020-06-01 -
文本分类实验报告
本报告包括完整的文本分类处理过程,包括24万搜狗预料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。并用自编朴素贝叶斯以及sklear
12 2020-05-04 -
中文文本分类语料
文本分类语料库,包含医药、计算机、环境、经济、交通、艺术、体育等10个学科领域
26 2020-05-14 -
LSTM多类文本分类
LSTM多类文本分类,keras实现,Multi-ClassTextClassificationwithLSTM,bySusaNLi。
32 2019-09-20 -
文本分类特征选择方法
文本分类特征选择方法
37 2019-09-06
暂无评论