埃森 Eesen旨在将现有的复杂,专业知识密集的ASR流程简化为简单的序列学习问题。 Eesen中的声学建模涉及训练单个递归神经网络(RNN),以建模从语音到文本的映射。 Eesen放弃了现有ASR管道所需的以下元素: 隐马尔可夫模型(HMM) 高斯混合模型(GMM) 决策树和语音问题 字典,如果将字符用作建模单位 ... Eesen由亚杰(Yajie 在工具包的启发下创建。 关键部件 Eesen包含启用端到端ASR的4个关键组件: 声学模型-具有LSTM单位的双向RNN。 培训-以主义者的为培训目标。 WFST解码-一种基于加权有限状态换能器(WFST)的原理解码方法,或者