基于正则化的与说话人相关的本机矩阵估计的说话人自适应
在有足够的适应性数据时,基于本机的说话人适应优于传统的最大似然线性回归(MLLR)和本征语音方法。 然而,当仅提供几秒钟的适配数据时,它会遭受严重的过度拟合。 在本文中,研究了各种正则化方法以获得更健壮的依赖于说话者的本征电话矩阵估计。 逐元素的l1范数正则化(称为套索)鼓励本征电话矩阵稀疏,从而减少了有效自由参数的数量并提高了泛化能力。 平方的l2范数正则化促进估计矩阵向零方向逐元素收缩,从而减轻了过度拟合的情况。 按列的非平方l2范数正则化(称为组套索)在列级别上像套索一样起作用,从而鼓励了本征音矩阵中的列稀疏性,即,首选具有许多零列的本征音矩阵作为解决方案。 每列对应一个本征电话,它是电话变化子空间的基本向量。 因此,组套索试图防止子空间的维数超出必需的范围。 对于非零列,组套索的作用类似于在列级别具有自适应加权因子的平方l2范数正则化。 还研究了这些方法的两种组合,即弹性网(同时应用l1和平方的l2范数)和稀疏组套索(同时应用l1和列式非平方的l2
暂无评论