Real-TimeVoiceCloning是“TransferLearningfromSpeakerVerificationtoMultispeakerText-To-SpeechSynthesis(SV2TTS)”论文的实现,这是一个三阶深度学习框架,允许从几秒钟的音频中创建一个数字化的语音,并使用它来调节训练的“文本转语音”模型,以推广到新的声音。