这是一篇硕士论文,题目是《中文文本分类中特征选择方法的研究与实现》,不但有理论上的研究,更难的是有具体的实例,还给出了软件的界面,值得参考。
这是用于分类,聚类的英文文本语料20_newsgroups
在传统模糊C-均值聚类算法的基础上,提出了一种新型区间值数据模糊聚类算法。运用区间分割策略改进了区间距离的计算公式,成功解决了区间距离计算方法存在的缺陷。提出了区间值数据模糊聚类的数学模型,并拓广模糊
解码器是统计机器翻译研究的关键部分。在基于短语的统计机器翻译的基础上,结合对数线性模型的思想加入多个特征模型,研究了一种动态规划的柱搜索解码算法。详细介绍此算法在解码器中的具体实现,并对翻译速度和精度
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了
基于文本分类的信息检索模型,丁志刚,王小捷,本文探索了如何利用信息文本分类对检索系统结果进行改善。首先,根据特定的分类集分别对待检索文档和检索条件进行数据建模;讨论
用神经网络训练一个文本分类器.pdf。大家可以去免费的下载,加油!好好学习天天向上,具体的东西的大家去看吧!
:针对短文本所描述信号弱的特点,提出一种基于特征扩展的中文短文本分类方法。该方法首先利用FP- Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概
最初在中文自然语言处理开放平台上获得,由复旦大学李荣陆博士收集整理
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形 容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算 文本