Kurumi 基于MIRA的高效中文分词工具

agent83990 1 0 zip 2024-10-28 00:10:01

Kurumi 是一个使用 MIRA 训练的大量特征模型，能够快速、准确地将中文（包括繁体和简体）句子切分成单词。需要注意的是，gem 的名称和 repo 名称不同！安装时可以将以下行添加到应用程序的 Gemfile 中：


gem 'cseg'

然后执行以下命令完成安装：


$ bundle

或者可以选择手动安装：


$ gem install cseg

安装完成后需要进行环境变量的设置。在 GitHub 上已删除字典文件，但可以通过 rubygems 获取所有必要的内容。

Kurumi 在 seghanbakeoff PKU 测试集上的表现为：

默认情况下，Kurumi 采用简体中文进行分词。以下是基本用法示例：


require 'cseg'

Kurumi.segment('屌丝是一种自我讽刺。')

# =&gt; [\"屌丝\", \"是\", \"一\", \"种\", \"自我\", \"讽刺\"]

kurumi-master.zip (预估有个10文件)

kurumi-master

.gitignore 160B

cseg.gemspec 886B

README.md 1KB

Gemfile 89B

LICENSE.txt 1KB

cseg.rb 941B

lib

cseg

version.rb 35B

cseg.rb.new 1KB

cseg.rb 941B

Rakefile 28B

暂无评论

PHP中文分词

PHP中文分词，将搜索关键字分成词组，方便与搜索更多的内容

37 2019-08-13
中文分词软件

Chinese word segmentation software

21 2019-06-24
中文分词算法

Chinese word segmentation algorithm

37 2019-06-26
Ansj中文分词

Ansj Chinese participle

51 2019-06-26
thinkphp中文分词

基于thinkphp的中文分词！完整的例子！

26 2019-07-11
中文分词CSW

非常好的中文分词系统，c++使用from：http://www.vgoogle.net/

45 2019-07-11
标准中文分词

本软件可以进行中文的分词，同时还能进行人名的分析

14 2019-07-11
中文分词搜索

完整的中文分词搜索可以自己编译词典扩展词典等类百度搜索

15 2019-05-03
中文分词程序

用python写的中文分词，实现了你想最大匹配算法

84 2019-05-04
solrik中文分词

包含内容：IKAnalyzer中文分词器V2012使用手册.pdf；机械词汇大全【官方推荐】；深蓝词库转换.exe；中文分词词库打包50万词汇；IKAnalyzer-5.0.jar

14 2019-05-13