论文研究 信息偏差在连续属性离散化中的应用.pdf
研究了一种有效的词典驱动的联机手写日文病名识别方法。病名词典以树结构存储,包含21 713个病名短语。在切分中,手写病名字符串通过分析相邻笔划之间的空间信息等特征被切分为原始的片段序列。连续的片段动态地合并为候选字符模式,不同的合并方式产生不同的候选字符序列,这样可构成一个切分候选网格。在识别过程中,结合病名词典匹配来限制候选字符模式的类别扩展,采用集束搜索策略来寻找到一条最优路径作为识别结果。用500个实际的手写病名样本做实验,平均每个病名的识别时间为0.87 s,识别正确率为83.16%。
暂无评论