IKAnalyzer安装包它的安装部署十分简单,将IKAnalyzer3.oGA.jar部署于项目的lib目录中;
来自“猎图网www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。1.正向全切分算法,42万汉字字符/每秒的处理能力(IBMThinkPad酷睿I1.6G1G
中文分词技术(中文分词原理)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的
IKAnalyzer中文分词器,里面包含jar包,html文档,pdf文档以及源码
针对中文进行修改的拼音分词器,很强大,支持首字母搜索、全拼搜索,首字母+全拼搜索!配置如下:拼音分词 2015-11-19 上传大小:21KB
lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器
solr 源码 + IK 分词器 + zookeeper。
很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。
Ansj Chinese word segmentation source
Solr 是 Apache 下的顶级开源项目,用 Java 开发,是一个基于 Lucene 的全文搜索服务器。Solr 提供了比 Lucene 更丰富的查询语言,同时可以对其进行配置和可扩展,优化了索