使用压缩感测功能快速调整说话人

myair61303 7 0 PDF 2021-04-08 16:04:41

即使适配数据量有限,基于说话者空间的说话人自适应方法也可以获得良好的性能。 然而,对于特定的未知说话者来说,难以确定子空间的最佳尺寸和基向量。 常规方法(例如本征语音(EV)和参考说话者加权(RSW))只能获得次优说话者子空间。 在本文中,我们提出了一种使用压缩感测的基于说话人空间的新说话人自适应框架。 基于常规高斯混合模型隐藏式马尔可夫模型(GMM-HMM)的语音识别系统的所有混合分量的均值向量被连接起来以形成超向量。 说话人适应问题被视为从有限的语音信号观察中恢复说话人相关的超向量。 冗余的说话者字典是由所有训练说话者超向量和从EV方法得出的超向量的组合构成的。 给定适配数据,通过从该词典中选择适当的一组项目,以最大的后验方式构造了特定说话者的最佳子空间。 两种算法,即匹配追踪和l 1正则化优化,都适用于解决此问题。 通过有效的冗余基矢量去除机制和说话人坐标的迭代更新,基于匹配追踪的说话人自适应方法是快速有效的。 匹配追踪算法是贪婪的和次优的,而使用显式的l 1正则化项对自适应数据的似然性进行直接优化可以获得未知说话人模型的更好近似。 采用投影梯度优化算法,匹配追踪算法的几次迭代可

用户评论
请输入评论内容
评分:
暂无评论