StarGAN VC 2语音识别模型 Stargan-VC2是一种基于生成对抗网络(GAN)的语音转换模型,主要用于非并行多域语音转换(VC)。该模型通过单个生成器解决了多个域之间的映射问题,并能够在不依赖并行数据的情况下,实现高质量的语音转换。
语音分离技术 语音分离是指将混合的语音信号分离成各个讲话者的独立声音。常见的技术包括Deep Clustering、Conv-TasNet、Depthwise卷积、Pointwise卷积和空洞卷积(Dilated/Atrous Convolution)。
Tacotron 2语音合成模型 语音合成是将文本信息转换为声音信号的过程,例如在抖音中的字幕配音。Tacotron2是基于Tacotron的端到端语音合成模型,其整体结构与Tacotron相似,均采用Seq2Seq架构。