Kurumi 是一个使用 MIRA 训练的大量特征模型,能够快速、准确地将中文(包括繁体和简体)句子切分成单词。需要注意的是,gem 的名称和 repo 名称不同!安装时可以将以下行添加到应用程序的 Gemfile 中:


gem 'cseg'

然后执行以下命令完成安装:


$ bundle

或者可以选择手动安装:


$ gem install cseg

安装完成后需要进行环境变量的设置。在 GitHub 上已删除字典文件,但可以通过 rubygems 获取所有必要的内容。

Kurumi 在 seghanbakeoff PKU 测试集上的表现为:

  • 精度:94.43%

  • 召回率:92.86%

使用方法

默认情况下,Kurumi 采用简体中文进行分词。以下是基本用法示例:


require 'cseg'

Kurumi.segment('屌丝是一种自我讽刺。')

# => [\"屌丝\", \"是\", \"一\", \"种\", \"自我\", \"讽刺\"]