Research on Multi-class Text Classification Based on SVM
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bigram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示
基于监督局部线性嵌入的支持向量机文本分类算法,李佑文,夏士雄,本文针对文本向量维数很高的问题,引入了局部线性嵌入算法用于降维。然而,由于经典LLE算法不一定能使降维过程中的信息损失达到最
粗糙集理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。在优势关系的基础上,以证据理论中的mass函数为基本工具,提出了基于优势关系的随机信息系统,研究了优势关系下随机
对KNN文本分类算法进行改进,提高文本分类正确率和分类效率.
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法
互联网web网页,利用SVM技术实现对web进行挖掘、检索等,本文采用这种方法以处理海量数据,网页自动分类,通过自动分类建立数据库,提高搜索引擎的查全率和查准率,而且可以自动的分类信息资源,为用户提供
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,
为满足大规模文本快速分类的需求,在传统文本分类方案基础上,利用GPU强大的并行吞吐量,提出了一种大规模并行文本分类方案。为验证该方案的有效性,在多个平台上进行充分的实验分析。结果表明,该方案比传统的分
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征