THUCTC:高效的中文文本分类器 源码
THUCTC:一个高效的中文文本分类工具 目录 项目介绍 THUCTC(THU中文文本分类)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练,评估,分类功能。 ,特征降维,分类模型学习三个步骤。如何选择合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为卡方,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高,测试速
文件列表
THUCTC-master.zip
(预估有个48文件)
THUCTC-master
.gitignore
183B
src
org
tartarus
snowball
SnowballStemmer.java
188B
ext
porterStemmer.java
36KB
englishStemmer.java
53KB
暂无评论