lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器
内含lucene、je、htmlparser的jar包
Ik 分词 2012 和 lucene 的资源和 jar 包,以及 lucene 索引查看工具
这是一个Lucene.net的多索引示例,以数据库的动态数据为数据源,每个表对应一个索引,使用了盘古分词方法,适用于中文的分词,并且实现了增删改查的所有功能。 同时,在查询索引时,适用了分页方法,可直
lucene.net的中文分词系统--SharpICTCLAS分词系统 个人用了,感觉蛮好,加些自己些库很是很好用的。就是速度慢了点。
文章目录《PFR人民日报标注语料库》词性编码表《现代汉语语料库加工规范——词语切分与词性标注》词性标记计算所 ICTCLAS 3.0汉语词性标记集形容词(1个一类,4个二类)区别词(1个一类,2个二类
汇总的中文分词词库,分为两个目录:1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。2、主流分词工具的词库。包含word/jieba/mm
lucene小资源,只是接触lucene的经验积累过程,从中学习一些有意义的经验。
这是目前最新版本的Pangu分词包。里面包含:PanGu.dll盘古分词的核心组件DictManage.exe字典管理工具Demo.exe分词演示程序PanGu.HighLight.dll高亮组件
lucene.net2.9.4.2源码版dll版本是2.9.4.2对2.9.4版的局部改进版