TextProcessor Java软件包是一个文本处理工具包,它提供了一些常用的文本处理功能,例如词干,删除停用词,生成术语词汇表以及计算术语-文档频率矩阵。 还支持基本主题挖掘模型,例如LDA和稀疏NMF。 该软件包还可以从给定的文本数据集中以LDA和LIBSVM格式生成特征文件,以用于后继过程(例如分类或聚类)。 该工具包也已扩展为基于自然语言处理技术的更高级的文本分析任务。