text classification cn:中文文本分类实践基于搜狗新闻语料库采用传统机器学习方法以及预训练模型等方法 源码
文字分类 文本分类(文本分类)是自然语言处理中的一个重要应用技术,根据文档的内容或主题,自动识别文档所属的预先定义的类别标签。文本分类是很多应用场景的基础,某些垃圾邮件识别,舆情分析,情感识别,新闻自动分类,智能客服机器人的合并分类等等。此处分为两个部分: 第1部分:基于scikit学习机器学习的Python库,对比几个传统机器学习方法的文本分类 第2部分:基于预训练词向量模型,使用Keras工具进行文本分类,用到了CNN 本文语料:,密码:P9M4。更多新闻标注语料,。 预训练词向量模型来自,下载地址: 。 第1部分:基于scikit-learn机器学习的文本分类方法 基于scikit-
文件列表
text-classification-cn-master.zip
(预估有个14文件)
text-classification-cn-master
dict
stop_words.txt
11KB
img
acc_loss_model3_cnn.png
32KB
wordcloud_example.png
75KB
acc_loss_model2.png
31KB
acc_loss_model1.png
48KB
utils.py
688B
main_scikit.py
4KB
暂无评论