IKAnalyzer中文分词器v3.2.0稳定版本的源码包
网上的包基本都没有智能分词了,下载下来基本也是缺的,此包已经包含智能分词,并附上相应的IKAnalyzer源码包,可以自行修改相关字典
IK中文分词版本5.0,IkAnalyzer分词、词频、内链优化,可以自定义分词词库看了这个项目你就可以熟练运用ik的分词了
IKAnalyzer2012_u6.jarlucene-analyzers-common-4.3.0.jarlucene-core-4.3.0.jarlucene-queryparser-4.3.0.
lucene中文分词公用组件V1.4
ktdict 中文分词器 一个开源的C#.net编写的,分词准确率大于90%,分词速度非常快,支持人名识别,词性标注,词频判断,未登录词识别,字典管理,Lucene.net接口
在IKAnalyzer1.1基础上,更新词典,优化对人名和公司名切分的!IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分以及正反向最大匹配切分两种算法,是
1.修正了1.2版本在数量词处理的缺陷2.优化分词性能3.优化词典请参考lucene中文分词公用组件V1.2之前版本使用说明
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配
适用于lucene或solr各版本的中文分词,效果不错。本人觉得比paoding好多了。有兴趣者可以玩玩