IK分词器,支持自定义词库,支持智能分词和细粒度分词。
花积分下载的,免费共享!
首先进入elasticsearch 安装目录使用下面命令进行安装(选择与自己安装的elasticsearch 版本相同的ik分词器) bin/elasticsearch-plugin install
NULL 博文链接:https://wangshirufeng.iteye.com/blog/2314955
本人最近在用lucene做一些东西,需要用到jieba分词器。但csdn上的资源都是需要积分的,一个开源软件竟然还要积分。。。从github找的,分享给大家吧
横瓜中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词
IKAnalyzer安装包它的安装部署十分简单,将IKAnalyzer3.oGA.jar部署于项目的lib目录中;
solr在7.0后内部集成有自己的中文分词器,但是其内部的分词器只是机械的分词,使用插件将更符合中文分词的习惯!
ik+mmseg分词器,适用于solr6.1版本,内附说明亲测可用!!!
中文分词技术(中文分词原理)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的