Unsupervised TXT classifier:分类任意两个TXT文档无需培训 JAVA 开源
使用已知的分类算法制作该程序是为了解决两个最常见的问题。 首先是过度训练,其次是缺乏用于类别训练的数据。 而是,每个TXT文件都是自己的类别,而不是分配的类别。 从某种意义上说,这类似于聚类,但实际上不是聚类算法,因为其中涉及一些训练。 来自Classifier4J的汇总器已经过调整,可以接受两个输入(我们称它们为A和B)。 然后,对摘要器进行A训练以对文档B进行摘要,反之亦然。 这为两个文档提取了一个相关结构(从而避免了过度训练),然后使用向量空间分析对其进行比较,以给出一个文档属于另一个文档的范围(从而避免信息不足)。 此方法可用于通过合并某些类别的文本来创建用户定义的类,然后计算文档之间的相关距离,但这不是必需的。
文件列表
Unsupervised TXT classifier:分类任意两个TXT文档,无需培训-JAVA-开源
(预估有个137文件)
VectorClassifier.class
3KB
Utilities.class
4KB
WordProbability.class
5KB
JDBCWordsDataSource.class
6KB
BayesianClassifier.class
6KB
EqualsBuilder.class
6KB
Resource.class
5KB
CompareToBuilder.class
8KB
HashCodeBuilder.class
6KB
SimpleSummariser.class
2KB
暂无评论