text classification cn:中文文本分类实践基于搜狗新闻语料库采用传统机器学习方法以及预训练模型等方法源码

visibility6511 10 0 ZIP 2021-02-16 13:02:24

文字分类文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,某些垃圾邮件识别,舆情分析,情感识别,新闻自动分类,智能客服机器人的合并分类等等。此处分为两个部分: 第1部分:基于scikit学习机器学习的Python库,对比几个传统机器学习方法的文本分类第2部分:基于预训练词向量模型,使用Keras工具进行文本分类,用到了CNN 本文语料:,密码:P9M4。更多新闻标注语料,。预训练词向量模型来自,下载地址: 。第1部分:基于scikit-learn机器学习的文本分类方法基于scikit-

文件列表

text-classification-cn-master.zip (预估有个14文件)

text-classification-cn-master

dict

stop_words.txt 11KB

img

acc_loss_model3_cnn.png 32KB

wordcloud_example.png 75KB

acc_loss_model2.png 31KB

acc_loss_model1.png 48KB

utils.py 688B

main_scikit.py 4KB

const.py 286B

README.md 33KB

CN_Corpus

.gitkeep 0B

main_keras.py 5KB

.gitignore 66B

corpus_split.py 1KB

load_data.py 3KB

用户评论

暂无评论

NLP预训练模型微调必备资源英文维基语料库下载

以下是英文维基语料库的下载链接，包含训练集、测试集和验证集。这些语料库是进行NLP预训练模型微调的必备资源，特别适用于language model和text generation场景。下载后，您可以使

8 2023-03-08
中文文本多分类系统文本分类

使用中科院分词系统和林智仁的libsvm进行设计的系统主要使用java语言进行开发其他更多的信息：你查看readme文件

52 2019-09-06
keras实现中文文本分类

keras实现中文文本分类；实现中文分析，词向量引入；基于语义的特征卷积计算，实现文本分类。

46 2019-08-02
百万级别中文文本分类

文章目录0.split_word.py——分词1.concat_data.py——拼接2.train_model.py——模型训练3.result_judge.py——结果评判其他github 项目地

6 2021-01-16
多种文本分类方法

基于贝叶斯，SVM对文本进行分类，详细介绍了如何进行文本分类，如python+jieba+skelam

32 2019-06-04
中文文本分类中特征抽取方法的比较研究

本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不

36 2019-05-14
搜狗W搜狗语料库供研究都用

搜狗W ,是搜狗的语料中的东西,下着研究看看吧,应该用用

17 2020-08-22
论文研究基于机器学习的维吾尔文文本分类研究.pdf

为了进一步提高检索系统的整体效率，提出了一种分块组织技术的倒排索引方法。具体研究过程是在数据统计的基础上产生倒排索引的检索性能模型，分析倒排文件分块索引项的组织策略，通过仿真实验对检索性能模型进行验证

20 2020-07-19
标注过的英文文本语料库影评

Bo Pang and Lillian Lee 在《Convolutional Neural Networks for Sentence Classification》用的语料库原始数据来自于影评

16 2020-07-29
基于半监督式文本分类的对抗训练方法

基于半监督式文本分类的对抗训练方法，对抗生成模型相关论文

34 2018-12-21

text classification cn:中文文本分类实践基于搜狗新闻语料库采用传统机器学习方法以及预训练模型等方法 源码

文件列表

用户评论

推荐下载

text classification cn:中文文本分类实践基于搜狗新闻语料库采用传统机器学习方法以及预训练模型等方法源码