vocoder:使用梯度下降法恢复梅尔谱图的相位 源码
基于梯度下降的声码器 使用梯度下降法恢复梅尔谱图的相位 该项目的基本思想是尝试从频谱图中恢复音频数据。 已经有可以做到这一点,在某些情况下,它甚至可以从频谱图中完美地重建音频。 但是,我面临的挑战是我将音频合并到,将幅度数据压缩2倍,使原始数据无法恢复。 Griffin-Lim只能通过从压缩的Mel箱中创建原始光谱图的模糊版本来使用。 在这种情况下,我们如何(仅略微改善)Griffin-Lim? 好了,这里有最先进的模型,但是我试图对未压缩的数据使用梯度下降,使用STFT重建误差和相对于梅尔谱图的误差总和作为损失。 这样,即使梅尔谱图未将其指定为基本幅度,它也可以进行估算。 怎么跑 在tensorflow 2环境中,运行python main.py samples/arctic_raw_16k.wav my/out/path.wav ,按ctrl-C停止处理并转储输出。 该演示会将输入文
文件列表
vocoder-master.zip
(预估有个17文件)
vocoder-master
util.py
3KB
old
main.1.py
880B
ROBOT.py
831B
main.2.py
1KB
README.md
176B
polish.py
2KB
gen_dataset.py
2KB
main.py
3KB
暂无评论