java通过括特征选取、特征降维、分类模型学习三个步骤完成自动智能分类
THUCTC(THUChineseTextClassification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。文本分类通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为Chi-square,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高、测试速度快的优点。
用户评论
推荐下载
-
情感识别的特征提取与与分类
包含基于特征降维的语音情感识别、基于支持向量机的语音情感识别、基于神经网络的语音情感识别、基于K近邻分类算法的语音情感识别程序
28 2019-05-13 -
文本分类中的特征提取
提取关于特征提取的一些方法: 互信息 CHI 期望交叉熵
38 2018-12-15 -
特征提取中文文本分类
中文文本分类问题中的特征提取的常见方法,包括常见的DF IG MI CHI等
65 2018-12-15 -
文本分类特征提取的ppt
本文以一个简单的案例循序渐进的讲解了特征提取的过程,其中,介绍了几种特征提取的方法
53 2018-12-15 -
opencv SURF特征BOW图片分类与训练
opencv,SURF特征,BOW图片分类与训练。
41 2018-12-17 -
pyAudioProcessing音频特征提取和分类源码
pyAudioProcessing 一个基于Python的库,用于将音频数据处理为特征并构建机器学习模型。 入门 克隆项目并进行设置 git clone git@github.com:jsingh81
22 2021-02-21 -
matlab开发基于特征的酸压分类
matlab开发-基于特征的酸压分类。它是一个基于特征面的面部表情识别系统。
8 2020-08-14 -
论文研究文本分类中基于位置和类别信息的一种特征降维方法.pdf
从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验
14 2020-07-19 -
通过色素特征统计分析对海洋浮游硅藻进行分类
通过色素特征统计分析对海洋浮游硅藻进行分类,姚鹏,邓春梅,为了建立有针对性地海洋浮游藻化学分类方法, 本文使用高效液相色谱测定分析了主要分离自中国胶州湾海域的6属12种14个品系的浮游硅�
6 2020-07-18 -
point wise MI选取1000个特征词
point wise MI选取1000个特征词的中间文件
6 2021-04-19
暂无评论