中文分词入门与字标注法
作为中文信息处理的“桥头堡”,中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中,资源的重要性又不言而喻,最大匹配法等需要一个好的词表,而基于字标注的中文分词方法又需要人工加工好的分词语料库。所以想研究中文分词,第一步需要解决的就是资源问题,这里曾经介绍过“LDC上免费的中文信息处理资源”,其中包括一个有频率统计的词表,共计44405条,就可以作为一个不错的中文分词词表使用。而一个好的人工分词语料库,需要很大的人力物力投入,所以无论研究还是商用往往需要一定的费用购买,好在SIGHANBakeoff为我们提供了一个非商业使用(non-commercial)的免费获取途径,以下将介绍SIGHANBakeoff及相关的中文分词入门资源。
用户评论
推荐下载
-
Lucene中文分词器极易分词
Lucene中文分词器中的极易分词组建,找了老长时间才弄下来的
33 2020-08-10 -
一种带词性标注的分词器使用方法–HanLP分词
HanLP的官方简介如下: HanLP是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过
6 2021-01-31 -
中文句法标注系统语义标注工具
用于对中文句子进行语义标注,以构建大规模语料库
63 2019-05-04 -
用于非监督中文分词算法的中文分词词库
用于非监督中文分词算法的中文分词词库
56 2019-06-05 -
中文词性标注
中文词性标注的科普文章,小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d
82 2019-05-25 -
Lucene的中文分词方法设计与实现
本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配
38 2019-09-09 -
Nutch中文分词插件的编写与配置
Nutch中文分词插件的编写与配置,非常详细
32 2019-06-04 -
基于Nutch中文分词的研究与实现
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词
22 2019-05-13 -
中文分词中的正向增字最大匹配算法研究
中文分词中的正向增字最大匹配算法研究详细描述了如何匹配的问题
56 2019-08-13 -
69万大词库输入法和中文分词
69万大词库,主要用于制做输入法,以及研究中文分词。
43 2019-04-02
暂无评论