基于梯度下降的声码器 使用梯度下降法恢复梅尔谱图的相位 该项目的基本思想是尝试从频谱图中恢复音频数据。 已经有可以做到这一点,在某些情况下,它甚至可以从频谱图中完美地重建音频。 但是,我面临的挑战是我将音频合并到,将幅度数据压缩2倍,使原始数据无法恢复。 Griffin-Lim只能通过从压缩的Mel箱中创建原始光谱图的模糊版本来使用。 在这种情况下,我们如何(仅略微改善)Griffin-Lim? 好了,这里有最先进的模型,但是我试图对未压缩的数据使用梯度下降,使用STFT重建误差和相对于梅尔谱图的误差总和作为损失。 这样,即使梅尔谱图未将其指定为基本幅度,它也可以进行估算。 怎么跑 在tensorflow 2环境中,运行python main.py samples/arctic_raw_16k.wav my/out/path.wav ,按ctrl-C停止处理并转储输出。 该演示会将输入文