THUCTC:高效的中文文本分类器源码

qqaccommodation1944 8 0 ZIP 2021-02-21 10:02:10

THUCTC:一个高效的中文文本分类工具目录项目介绍 THUCTC(THU中文文本分类)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练,评估,分类功能。 ,特征降维,分类模型学习三个步骤。如何选择合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为卡方,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高,测试速

文件列表

THUCTC-master.zip (预估有个48文件)

THUCTC-master

.gitignore 183B

src

org

tartarus

snowball

SnowballStemmer.java 188B

ext

porterStemmer.java 36KB

englishStemmer.java 53KB

SnowballProgram.java 10KB

Among.java 1007B

TestApp.java 2KB

thunlp

text

DocumentVector.java 2KB

TfIdfTermWeighter.java 437B

TfOnlyTermWeighter.java 217B

Lexicon.java 12KB

TermWeighter.java 307B

classifiers

BigramEnglishTextClassifier.java 600B

ClassifyResult.java 310B

BilingualBigramTextClassifier.java 605B

ToshibaBilingualClassifier.java 13KB

BigramChineseTextClassifier.java 499B

AbstractTextClassifier.java 22KB

LiblinearTextClassifier.java 28KB

TextClassifier.java 2KB

LinearBigramChineseTextClassifier.java 535B

BasicTextClassifier.java 24KB

Term.java 474B

language

chinese

stopwords.cn.txt 6KB

lexicon.model 1.27MB

LangUtils.java 9KB

WordSegment.java 138B

BigramWordSegment.java 2KB

ChineseLanguageConstants.java 18KB

english

EnglishWordSegment.java 3KB

EnglishStemmer.java 447B

EnglishBigramWordSegment.java 2KB

stopwords.en.txt 579B

BilingualBigramWordSegment.java 2KB

Stopwords.java 3KB

PorterStemmer.java 442B

misc

Counter.java 2KB

IntPair.java 799B

TextFileReader.java 2KB

TextFileWriter.java 2KB

Demo.java 4KB

LICENSE 1KB

README.md 10KB

lib

apache-commons-lang.jar 278KB

THULAC_java_v1.jar 701KB

liblinear-1.8.jar 51KB

commons-codec-1.3.jar 46KB

libsvm.jar 49KB

用户评论

暂无评论

svm文本分类

Svm text classification

32 2019-06-26
MaxEnt文本分类

根据李航的统计学习方法，实现了最大熵模型新闻文本分类，里面包含的数据集，数据预处理，MaxEnt模型实现代码，用于教学目的。

35 2019-05-05
文本分类综述

Text classification review

19 2019-06-22
文本分类算法

基于文本分类中特征提取的领域词语聚类刘华 [摘要]本文以领域特征明显的词和短语作为聚类对象，在分类系统的大规模语料库中，利用文本分类的特征提取方法进行词语的领域聚类，从而获得大规模的领域知识，用于文

80 2018-12-15
文本分类研究

文本分类研究

42 2018-12-15
文本分类语料

包括十个类，环境，计算机，交通，教育，经济，军事，体育，医药，艺术，政治

42 2019-03-29
短文本分类

文档内容是短文本分类的外文期刊,提高英文阅读能力,获取国外分类技术信息

20 2020-12-22
文本分类论文

文本分类新论文很值得看尤其是数据挖掘方面的相关学习者

19 2019-09-22
达观文本分类

基于文本分类的代码数据，多分类问题。使用传统自然语言处理技术和深度学习技术

19 2019-09-20
文本分类基础

有关文本分类的国外经典书籍

29 2019-01-02

THUCTC:高效的中文文本分类器 源码

文件列表

用户评论

推荐下载

THUCTC:高效的中文文本分类器源码