使用已知的分类算法制作该程序是为了解决两个最常见的问题。 首先是过度训练,其次是缺乏用于类别训练的数据。 而是,每个TXT文件都是自己的类别,而不是分配的类别。 从某种意义上说,这类似于聚类,但实际上不是聚类算法,因为其中涉及一些训练。 来自Classifier4J的汇总器已经过调整,可以接受两个输入(我们称它们为A和B)。 然后,对摘要器进行A训练以对文档B进行摘要,反之亦然。 这为两个文档提取了一个相关结构(从而避免了过度训练),然后使用向量空间分析对其进行比较,以给出一个文档属于另一个文档的范围(从而避免信息不足)。 此方法可用于通过合并某些类别的文本来创建用户定义的类,然后计算文档之间的相关距离,但这不是必需的。