实时语音克隆:在5秒内克隆语音以实时生成任意语音源码

reminder_22071 23 0 ZIP 2021-02-10 03:02:45

实时语音克隆该存储库是使用实时工作的声码器实现的(SV2TTS)的实现。如果您好奇或正在寻找我未记录的信息,请随时检查。通常,我建议您快速浏览一下引言之外的数字。 SV2TTS是一个三阶段的深度学习框架,它允许从几秒钟的音频中创建语音的数字表示,并使用它来调节经过训练的文本到语音模型,以推广到新的语音。视频演示(单击图片): 已实施文件网址指定标题实施源 SV2TTS 将学习从演讲者验证转移到多演讲者语音合成这个回购 WaveRNN(声码器) 高效的神经音频合成 Tacotron 2(合成器) 基于梅尔谱图预测的条件波网自然合成TTS GE2E(编码器)

文件列表

Real-Time-Voice-Cloning-master.zip (预估有个84文件)

Real-Time-Voice-Cloning-master

.gitignore 206B

README.md 5KB

utils

modelutils.py 698B

logmmse.py 9KB

__init__.py 0B

profiler.py 1KB

argutils.py 1KB

demo_cli.py 10KB

synthesizer_train.py 3KB

requirements_gpu.txt 271B

toolbox

utterance.py 222B

__init__.py 14KB

ui.py 25KB

demo_toolbox.py 2KB

synthesizer_preprocess_embeds.py 1KB

.gitattributes 26B

vocoder_preprocess.py 2KB

vocoder

distribution.py 5KB

audio.py 2KB

train.py 5KB

hparams.py 2KB

gen_wavernn.py 985B

inference.py 2KB

vocoder_dataset.py 3KB

models

fatchord_version.py 15KB

deepmind_version.py 7KB

LICENSE.txt 1KB

display.py 3KB

encoder

data_objects

random_cycler.py 1KB

speaker_batch.py 616B

utterance.py 855B

__init__.py 181B

speaker_verification_dataset.py 2KB

speaker.py 2KB

config.py 1KB

params_data.py 901B

audio.py 4KB

train.py 5KB

inference.py 8KB

model.py 6KB

__init__.py 0B

preprocess.py 7KB

params_model.py 196B

visualizations.py 7KB

vocoder_train.py 3KB

requirements.txt 239B

demo_toolbox_collab.ipynb 1.3MB

LICENSE.txt 1KB

synthesizer

utils

text.py 2KB

plot.py 2KB

symbols.py 633B

numbers.py 2KB

cleaners.py 2KB

__init__.py 444B

_cmudict.py 2KB

synthesize.py 4KB

audio.py 8KB

train.py 21KB

hparams.py 20KB

tacotron2.py 12KB

inference.py 7KB

models

attention.py 9KB

custom_decoder.py 5KB

tacotron.py 29KB

modules.py 22KB

__init__.py 174B

helpers.py 6KB

architecture_wrappers.py 8KB

feeder.py 11KB

__init__.py 1B

infolog.py 1KB

preprocess.py 12KB

LICENSE.txt 1KB

samples

README.md 943B

6829_00000.mp3 15KB

VCTK.txt 5KB

8230_00000.mp3 16KB

p260_00000.mp3 20KB

1320_00000.mp3 15KB

p240_00000.mp3 20KB

3575_00000.mp3 15KB

synthesizer_preprocess_audio.py 3KB

encoder_train.py 2KB

encoder_preprocess.py 3KB

用户评论

暂无评论

语音实时传输中的丢包恢复方法

在一定意义上，语音质量比视频质量或语音/视频同步更加重要，因为其承载的语义较之视频信息更短暂和直接，也要求更强的连续性，一旦其质量受到影响必然对语义的传达产生更大的影响。

31 2019-01-15
JMF实现实时视频语音的发布和接收

JMF实现实时视频语音的发布和接收,视频质量清晰，语音流畅。

29 2019-01-17
PotPlayer实时字幕翻译插件语音转文字轻松搞定

PotPlayer是一款强大的播放器，可以进行实时字幕翻译，并且通过语音转文字功能将视频内容转化为字幕形式。无论您是在学习外语，还是需要查看资讯类视频，这款插件都能助您一臂之力。它支持多种语言，同时保

11 2023-05-03
完整版语音实时采集并显示波形.rar

完整版语音实时采集并显示波形.rar

15 2020-08-09
HTML5语音报时加语音包.rar

HTML5整点语音报时代码，到了整点后，开始报时。实现原理也很简单，js判断几点整就调用相应mp3音频播放。带.mp3整点报时语音包

44 2019-09-03
语音

pb做的语音源码

20 2019-09-09
语音合成和语音识别

讯飞语音实现语音合成和语音识别功能，保证能用

61 2019-03-10
c语音识别语音朗读

c# 语音识别语音朗读前2项可以用第3项有错误，没有修改过来

33 2019-03-10
语音合成加语音引擎

自己整合资源做的一款可以朗读文本输入、文本文件、提取网页文章的软件，因为时间有限有些功能尚未完善，有兴趣的可以自己补充。为了有好的体验，运行前，需要安装一个语音引擎，下载地址：链接：http://pa

87 2019-05-31
Pos语音报数_语音文件

Pos语音报数语音文件,包含一，二，三，十，千，万，亿，等语音文件*.wav

31 2019-07-27

实时语音克隆:在5秒内克隆语音以实时生成任意语音 源码

文件列表

用户评论

推荐下载

实时语音克隆:在5秒内克隆语音以实时生成任意语音源码