中文信息处理中的分词问题 在中文信息处理的众多应用领域中, 从最底层的键盘、 语音和字符识别等各类 汉字输入方法, 到最高层的各种汉语理解系统, 都不可能完全摆脱汉语文本分词处理的困 扰。 分词问题已成为当前中文信息处理的一个瓶颈。 没有一种公认的分词标准, 是人和 计算机共同面临的困难。 如果在这个问题上不能尽快达成共识,
汉语自动分词词典机制的实验研究 分词词典是汉语自动分词系统的一个基本组成部分。 其查询速度直接影响到分词 系统的处理速度。 本文设计并通过实验考察了三种典型的分词词典机制: 整词二分、TRIE 索 引树及逐字二分, 着重比较了它们的时间、空间效率。 实验显示: 基于逐字二分的分词词典机 制简洁、高效, 较好地满足了实用型汉语自动分