Kurumi 是一个使用 MIRA 训练的大量特征模型,能够快速、准确地将中文(包括繁体和简体)句子切分成单词。需要注意的是,gem 的名称和 repo 名称不同!安装时可以将以下行添加到应用程序的 Gemfile 中:
gem 'cseg'
然后执行以下命令完成安装:
$ bundle
或者可以选择手动安装:
$ gem install cseg
安装完成后需要进行环境变量的设置。在 GitHub 上已删除字典文件,但可以通过 rubygems 获取所有必要的内容。
Kurumi 在 seghanbakeoff PKU 测试集上的表现为:
-
精度:94.43%
-
召回率:92.86%
使用方法
默认情况下,Kurumi 采用简体中文进行分词。以下是基本用法示例:
require 'cseg'
Kurumi.segment('屌丝是一种自我讽刺。')
# => [\"屌丝\", \"是\", \"一\", \"种\", \"自我\", \"讽刺\"]
暂无评论