中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法:1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法:command[text][input][output]命令command的可选值为:demo、text、filedemotext杨尚川是APDPlat应用级产品开发平台的作者filed:/text.txtd:/word.txtexit2、对文本进行分词移除停用词
推荐下载
-
毕设论文基于词典的中文分词器
2010年毕业写的基于词典的分词器方案论文,不舍得丢,传上来给大家参考。自己合成了词库,使用了隐马尔科夫模型,分词质量还行。本文在对已有分词技术研究的基础上,做出了多处改进,完成了一个高效、准确的中文
32 2019-07-11 -
复旦大学的中文分词工具Java
复旦大学自主开发的的非常好的分词工具,可进行二次开发,非常好用
23 2020-05-10 -
中文分词算法接口文档
中科院中文分词算法的接口介绍,包括C++,java,C#等语言
8 2020-10-27 -
中文分词算法概述.pdf
中文分词算法:基于统计 匹配 语义三种方法。
17 2020-09-17 -
中文分词算法详解pptx
中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 PPT中详细的描述了现有中文
34 2019-02-27 -
最大匹配算法中文分词
词典的加载最大匹配算法中文分词算法的实现
39 2019-06-04 -
中文分词算法研究.caj
中文分词算法研究.caj 刘件 caj文件要下载知网的阅读器
5 2021-04-23 -
C++中文分词源码分词的方法
西方语言在语句(或从句)内词汇之间存在分割符(空格),而汉语的词汇在语句中是连续排列的。因此,汉语词汇的切分(分词)在中文信息处理的许多应用领域,如机器翻译、文献检索、文献分类、文献过滤、以及词频统计
31 2018-12-26 -
Lucene中文分词器极易分词
Lucene中文分词器中的极易分词组建,找了老长时间才弄下来的
33 2020-08-10 -
word1.3.1.jar中文分词
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词
27 2020-05-18
用户评论