deepspeech2 百度研究公司的Deep Speech 2模型于2015年发布,可将语音从文本的端到端从标准化的声谱图转换为字符序列。 它由在时间和频率上的几个卷积层组成,然后是门控循环单元(GRU)层(通过附加的批归一化进行了修改)。 该存储库仅包含模型代码,但是您可以通过使用deepspeech2进行训练。 安装 此项目建议使用Python 3.7或更高版本。 我们建议为此项目创建一个新的虚拟环境(使用虚拟环境或conda)。 先决条件 Numpy: pip install numpy (有关安装Numpy的问题,请参阅)。 Pytorch:请访问以在您的环境中安装该版本。 从源安装 当前,我们仅支持使用setuptools从源代码进行安装。 签出源代码并运行以下命令: pip install -e . 用法 import torch import torch . nn