vits-chinese模型,它是使用标贝男声数据,在经过700K步的训练后得到的模型。同时,我们还分享了如何在此模型上进行新speaker的二次训练,以实现快速收敛的效果。