对于大词汇量语音识别系统,适当选择基本单元至 关重要。虽然以词为基本单元时避免了词边界的确定等复 杂过程,但很多派生类结构中(如黏性语言),词比较长,而 且很多文字(如中文、日文等)不需要词边界,因而在自然语 言处理应用中没有选取基本单元集的固定模式。该文以维 吾尔语大词汇量语音识别系统为例,研究基于各个层次化 粒度单元的语音识别系统。通过比较各种层次化单元集为 基础的语音识别结果,分析错误识别模式,收集被误判的单 元序列作为在2层单元序列结构中择优的训练样本库。比 较各种单元集的优缺点,提出一种能平衡长单元集和短单 元集优点的方法。实验结果表明:该方法不仅可以有效提高 语音识别准确率,也大大