TF-IDF文本分类实现

must6566 10 0 py 2024-05-11 16:05:55

使用中文文本数据集进行TF-IDF文本分类。通过jieba库进行分词处理，预处理函数去除数字、标点及停用词。TF-IDF特征计算通过专用函数实现。分类器训练与评估调用K近邻、支持向量机、多层感知器等算法。另外，借助sklearn的TfidfVectorizer自动提取TF-IDF特征。训练好的特征提取器保存至磁盘，测试时加载使用。利用网格搜索法优化支持向量机模型。整个流程由主程序控制，最终输出分类性能的统计指标。

用户评论

暂无评论

LibSVM进行文本分类

包括调用LibSVM进行分类的程序，以及文本预处理部分的程序详情见：http://www.cnblogs.com/finallyliuyu/archive/2010/09/04/1818019.htm

36 2019-08-02
最大熵的文本分类

最大熵模型用于文本分类的例子，里面有数据集和Python代码

16 2019-07-06
文本分类特征选择VSM

文本分类的基本知识和其中重要的概念知识。

37 2018-12-15
中文文本分类实验

中文文本分类完整流程的简单实现，分词、去停用词、提取特征、计算文档的特征向量、支持向量机训练、测试文档分类，简单实现，其中词频统计、去停用词使用布隆过滤器加速，效果不错

49 2018-12-09
文本分类综述王斌

文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类，是朴素贝叶斯分类方法。

17 2019-09-09
贝叶斯文本分类

编译通过的代码，且包含文本分词代码

19 2019-09-09
新闻文本分类实战.zip

新闻文本分类实战

14 2021-04-15
python文本关键字提取分析算法tf_idf

tf-idf作为文档关键字提取的常用算法，python将tf-idf封装了对象,可直接使用

36 2019-05-16
TextInfoExp自然语言处理实验sougou数据集TF IDF文本分类聚类词向量情感识别关系撤消等源码

建立实验环境 1个安装python(2.7) 2安装点: 2.1下载pip 2.2解压缩后,安装指令python setup.py install 2.3 pip升级python -m pip ins

12 2021-02-05
C++ 文本分类源代码C++ 文本分类信息检索中文分词

C++文本分类源代码-C++文本分类信息检索中文分词信息检索课程的课设资源不错可以看看

30 2020-05-19

TF-IDF文本分类实现

用户评论

推荐下载