C++中文分词源码分词的方法327.29KB-其他-卡了网

西方语言在语句（或从句）内词汇之间存在分割符（空格），而汉语的词汇在语句中是连续排列的。因此，汉语词汇的切分（分词）在中文信息处理的许多应用领域，如机器翻译、文献检索、文献分类、文献过滤、以及词频统计等，是非常重要的第一步。自动分词是基于字符串匹配的原理进行的。迄今为止，已经有许多文献对各种分词方法进行探讨，其着重点或为分词的速度方面，或为分词的精度方面以及分词的规范。本文主要探讨分词的速度问题，通过实验对比和理论分析，说明我们所提出的算法是有效的。目前人们所提出的分词方法，在考虑效率问题时，通常在词典的组织方面进行某种调整，以适应相应的算法，如最大匹配法、最小匹配法、逐词遍历法、以及最佳匹配法等。这些方法中，或将词典按词条长度排序或按词频排序，其目的在于协调算法与数据结构，使之效率最高。客观地说，它们都在一定程度上提高了分词的效率。本文所介绍的是基于词典的最大向前匹配方法。而在数据结构方面，我们则是将词典组织成自动机形式。

C++中文分词源码，分词的方法

文件列表

用户评论

推荐下载