非常好的中文分词器,基于lucene,很好用!
打好包的jcseg分词器插件,解压到plugins下,修改plugin-descriptor.properties 中的es版本号,重启即可
使用SCWS扩展技术,实现搜索时中文词语的查找,结合php技术
中文分词标注软件,开源版ICTCLAS,C++环境,用用还不错。
我在博客中使用的中文分词包,大家也可以去官网上取下
中文分词系统,PHP分词的上乘之选
将中英文文短句分解为词语:如"用户提供并拥有在该网站的上传权限"分解为:用户,提供,并,拥有,在,该,网站,的上,传,权限
所需要抽取的文本进行分词和词性的标注,将中文划分为独立存在的词,并且辨别这些词的词性,将每一个词的词性标注在每一个词的后面。这样做可以方便我们对一些需要的词的抽取,并且能更加方便的进行词频统计。
Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。内容简介:http://www.iteye.com/magazines/102#
搜狗的词库,虽然时间老,但是还是不错的,分词开发可以参考一下