中文分词的庖丁解牛分词器

fourie 29 0 zip 2020-03-12 00:03:07

一种比较有效的中文分词器，可以在lucene开发中使用

推荐下载

IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配

2010年毕业写的基于词典的分词器方案论文,不舍得丢,传上来给大家参考。自己合成了词库,使用了隐马尔科夫模型,分词质量还行。本文在对已有分词技术研究的基础上,做出了多处改进,完成了一个高效、准确的中文

此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度；分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如hig

solr5的ik中文分词器源码,解压后需要自己打包成jar包

庖丁解牛分词,paoding-analysis,compass字典分词

一款强大的中文分词软件,基于开源搜索工具lucene

目前为止最好用的中文分词JAVA程序,方便集成,支持lucenue庖丁解牛中文分词java最新版

针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该

Lucene是一个高效的全文检索工具包,本文主要研究了Lucene的体系架构及其在中文检索上的应用。通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucen

各个版本ik分词器zip,下载解压即可使用..........................

用户评论

请输入评论内容

评分：

卡了网匿名网友 2020-03-12 00:03:07

经测，可用，非常好

卡了网匿名网友 2020-03-12 00:03:07

不错资源解决了我大问题

卡了网匿名网友 2020-03-12 00:03:07

本想用来处理多音字结果发现不能实现

卡了网匿名网友 2020-03-12 00:03:07

资源非常好，可以使用！

卡了网匿名网友 2020-03-12 00:03:07

庖丁分词器，不错；但缺点是现在作者都木有更新；关键是google上获取要翻墙，麻烦。

卡了网匿名网友 2020-03-12 00:03:07