最近,深度神经网络(DNN)在自动语音识别(ASR)系统中的声学建模中变得越来越流行。 由于它们产生的瓶颈特征具有固有的区别性,并且包含影响表面声学实现的丰富隐藏因素,因此标准方法是在串联框架中通过瓶颈特征来增强常规声学特征。 在本文中,研究了结合瓶颈特征的替代方法。 使用广义可变参数HMM(GVP-HMM)对声学特征与DNN瓶颈特征之间的复杂关系进行建模。 自动学习最佳的GVP-HMM结构配置和模型参数。 与Aurora 2上的基线多样式HMM和串联HMM系统相比,相对错误率分别降低了48%和8%。