ansj_seg:ansj分词.ict的真正的Java实现。分词效果速度都超过了开源版的ict。中文分词人名识别词性标注用户自定义词典 源码
Ansj中文分词 使用帮助 开发文档: , 摘要 这是一个基于n-Gram + CRF + HMM的中文分词的java实现。 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。 目前实现了中文分词,中文姓名识别,用户自定义词典,关键字提取,自动摘要,关键字标记等功能。 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。 专家 org.ansj ansj_seg
文件列表
ansj_seg:ansj分词.ict的真正的Java实现。分词效果速度都超过了开源版的ict。中文分词,人名识别,词性标注,用户自定义词典-源码
(预估有个245文件)
TestError.java
15KB
TagContentTest.java
49KB
numberLibrary.dic
335B
bigramdict.dic
6.19MB
core.dic
4.53MB
PersonRecognition.java
16KB
PhraseExtractor.java
16KB
stop.dic
35B
synonyms.dic
421KB
regex.dic
0B
暂无评论