CISTEM CISTEM是德语的词干算法,由LeonieWeißweiler和Alexander Fraser开发。 该存储库包含各种编程语言的官方实现。 目前,以下语言可用: Python Java C ++ C Java脚本 走 哈斯克尔 Perl Swift 每种语言的代码都包含一种用于词干的方法以及一种用于切分的方法,该方法返回剥离的后缀和词干。 性能 我们对六种公开可用的德国词干进行了比较分析,其中CISTEM在f-measure方面取得了最佳结果,在运行时取得了最新结果。 黄金标准 gold_standards文件夹包含我们用于评估的两个黄金标准。 每个文件都是utf-8