mecab是基于CRF的一个日文分词系统,代码使用c++实现,基本上内嵌了CRF++的代码,同时提供了多种脚本语言调用的接口(python,perl,ruby等).整个系统的架构采用通用泛化的设计,用户可以通过配置文件定制CRF训练中需要使用的特征模板。甚至,如果你有中文的分词语料作为训练语料,可以在该架构下按照其配置文件的规范定制一个中文的分词系统。 日文NLP界有几个有名的开源分词系统,Juman,Chasen,Mecab.Juman和Chasen都是比较老的系统了,Mecab系统比较新,在很多方面都优于Juman和Chasen,