基于多模递归神经网络的音频-视频语音识别,冯为江,管乃洋,关于人机交互接口的一些研究表明视觉信息可以提升语音识别准确率,尤其是在嘈杂环境中。由于深度学习在语音识别和图像识别方面均��