复旦大学中文文本分类训练集和测试集,all文件夹为复旦大学中文文本分类语料集,test_corpus为该语料集中挑选部分划分出来的,train_corpus为该语料集中挑选test_corpus后剩余
这是一篇硕士论文,题目是《中文文本分类中特征选择方法的研究与实现》,不但有理论上的研究,更难的是有具体的实例,还给出了软件的界面,值得参考。
由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少
论文介绍了基于VSM的中文文本分类系统的设计与实现
文档内容是短文本分类的外文期刊,提高英文阅读能力,获取国外分类技术信息
挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,应用于文本分类
文本分类器,一款根据文本特征,将文本识别为哪一类,如体育文章(不知道的),分类器自动识别为体育类。
对文本分类方法介绍,主要适用于图书情报检索学习。
文本分类新论文很值得看尤其是数据挖掘方面的相关学习者
TextClassify文本分类系统适用于中文,英文文本分类。包括各个文本的关键词输出,可以控制关键词输出个数,也可以对关键词加入黑名单和白名单。关于TextClassify文本分类系统的改进:改进j