word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法:1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法:command[text][input][output]命令command的可选值为:demo、text、filedemotext杨尚川是APDPlat应用级产品开发平台的作者filed:/text.txtd:/word.txtexit2、对文本进行分词移除停用词