提出了一种使用状态空间模型(SSM)的新颖语音转换(VC)方法。 SVC从未在VC中显示过,它具有显式建模频谱参数轨迹的优势。 因此,它将优于传统的基于高斯混合模型(GMM)的方法,在该方法中,在逐帧过程中执行转换算法,而忽略了相邻帧之间的相关性。 使用主观和主观测量的实验表明,从语音质量和说话人个性的转换精度两方面来看,基于SSM的方法明显优于传统的基于GMM的方法。