雅典娜 Athena是端到端语音处理引擎的开源实现。 我们的愿景是增强语音处理的端到端模型的工业应用和学术研究。 为了使所有人都能使用语音处理,我们还将在一些开源数据集上发布示例实现和配方,以完成各种任务(自动语音识别,语音合成,语音转换,说话者识别等)。 我们所有的模型都在Tensorflow> = 2.0.1中实现。 为了易于使用,我们提供了带有的无Kaldi 特征提取器。 1)目录 2)主要特点 基于混合注意力/ CTC的端到端ASR 语音转换器 无人监督的预训练 使用Horovod在一台机器上或在多台机器上进行多GPU培训 基于Tacotron2的端到端TTS,支持多扬声器和GST