TensorFlow 2中的文本到语音转换器 基于非自回归变压器的文本到语音(TTS)神经网络的实现。 此回购协议基于以下论文: 我们的预训练LJSpeech模型与来自以下方面的预训练声码器兼容: 非自回归 由于是非自回归的,因此该Transformer模型为: 鲁棒性:对于挑战性的句子,没有重复和失败的注意力模式。 快速:没有自回归,预测只需花费一小部分时间。 可控制的:可以控制所产生话语的速度。 :speaker_low_volume: 样品 这些样本的声谱图使用预先训练的和声码器进行转换。 在Colab上尝试一下: 版 Colab链接 前进+ MelGAN 正向+ Wav