使用中文文本数据集进行TF-IDF文本分类。通过jieba库进行分词处理,预处理函数去除数字、标点及停用词。TF-IDF特征计算通过专用函数实现。分类器训练与评估调用K近邻、支持向量机、多层感知器等算法。另外,借助sklearn的TfidfVectorizer自动提取TF-IDF特征。训练好的特征提取器保存至磁盘,测试时加载使用。利用网格搜索法优化支持向量机模型。整个流程由主程序控制,最终输出分类性能的统计指标。
用户评论
推荐下载
-
LibSVM进行文本分类
包括调用LibSVM进行分类的程序,以及文本预处理部分的程序详情见:http://www.cnblogs.com/finallyliuyu/archive/2010/09/04/1818019.htm
36 2019-08-02 -
最大熵的文本分类
最大熵模型用于文本分类的例子,里面有数据集和Python代码
16 2019-07-06 -
文本分类特征选择VSM
文本分类的基本知识和其中重要的概念知识。
37 2018-12-15 -
中文文本分类实验
中文文本分类完整流程的简单实现,分词、去停用词、提取特征、计算文档的特征向量、支持向量机训练、测试文档分类,简单实现,其中词频统计、去停用词使用布隆过滤器加速,效果不错
49 2018-12-09 -
文本分类综述王斌
文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类,是朴素贝叶斯分类方法。
17 2019-09-09 -
贝叶斯文本分类
编译通过的代码,且包含文本分词代码
19 2019-09-09 -
新闻文本分类实战.zip
新闻文本分类实战
14 2021-04-15 -
python文本关键字提取分析算法tf_idf
tf-idf作为文档关键字提取的常用算法,python将tf-idf封装了对象,可直接使用
36 2019-05-16 -
TextInfoExp自然语言处理实验sougou数据集TF IDF文本分类聚类词向量情感识别关系撤消等源码
建立实验环境 1个安装python(2.7) 2安装点: 2.1下载pip 2.2解压缩后,安装指令python setup.py install 2.3 pip升级python -m pip ins
12 2021-02-05 -
C++ 文本分类源代码C++ 文本分类信息检索中文分词
C++文本分类源代码-C++文本分类信息检索中文分词信息检索课程的课设资源不错可以看看
30 2020-05-19
暂无评论