用于语音识别的seq2seq模型的实现。 架构类似于Listen,Attend和Spell。