毕设论文基于词典的中文分词器

qq_88898486 32 0 DOC 2019-07-11 17:07:34

2010年毕业写的基于词典的分词器方案论文,不舍得丢,传上来给大家参考。自己合成了词库,使用了隐马尔科夫模型,分词质量还行。本文在对已有分词技术研究的基础上,做出了多处改进,完成了一个高效、准确的中文分词器,能进行文本和文件的分词操作。分词词典是分词器的基础,本文选择了查询速度极快的双数组Trie为基础,改进为“三数组Trie”,从而能够存储分词所需的词频词性信息;双向最大匹配切分算法具有快速、简单和较强的歧义检测能力等特点,通过动态的改变最大匹配长度,有效减少了匹配的平均次数并且对长词实现了无遗漏切分;歧义消解一直是影响分词精度的因素之一,本文通过改进MMSEG算法,采用了并行规则积分过滤的方法,达到了较好的效果;命名实体作为一类占比重最大的未登录词,

用户评论
请输入评论内容
评分:
Generic placeholder image 卡了网匿名网友 2019-07-11 17:07:34

有源码就更好了