暂无评论
对常用的文本算法进行了总结,介绍了算法的基本原理以及优缺点,适合新手阅读也适合老司机查漏补缺。发现不足欢迎交流。
加载Gutenberg语料库; 过滤停用词; 构建词袋模型:一篇文档是有其中的词构成的一个集合(袋子); 词频分析:NLTK中的FreqDist类可以将单词封装成字典。 分类器部分代码见《Python
vc编写的文本分类源代码
这是SVM文本分类程序源码,既有java版本,也有C++版本。
只要您按照文本分类程序中readme文本分类的主要流程.txt 的说明一步一步完成的话,就可以进行文本分类
该工具包包含了完整的文本分类流程,涉及分词、特征处理、模型训练、未知样本分类等,是初级文本分类必备工具包
基于朴素贝叶斯的文本分类,结合了TF-IDF算法和textrank算法
简单的文本预处理程序,将输入文档去掉数字(不包含字母的字符串),去掉停用词,去掉标点符号,生成基本可用的词库(保留下的基本都是有意义的特征)。便于之后用支持向量机或者决策树等进行文本分类处理等。
贝叶斯文本分类器
基于SVM的Web文本分类,对短文本以及社交网络文本分类效果不错,推荐该学习资料。
暂无评论