使用压缩感测功能快速调整说话人

myair61303 7 0 PDF 2021-04-08 16:04:41

即使适配数据量有限,基于说话者空间的说话人自适应方法也可以获得良好的性能。然而,对于特定的未知说话者来说,难以确定子空间的最佳尺寸和基向量。常规方法(例如本征语音(EV)和参考说话者加权(RSW))只能获得次优说话者子空间。在本文中,我们提出了一种使用压缩感测的基于说话人空间的新说话人自适应框架。基于常规高斯混合模型隐藏式马尔可夫模型(GMM-HMM)的语音识别系统的所有混合分量的均值向量被连接起来以形成超向量。说话人适应问题被视为从有限的语音信号观察中恢复说话人相关的超向量。冗余的说话者字典是由所有训练说话者超向量和从EV方法得出的超向量的组合构成的。给定适配数据,通过从该词典中选择适当的一组项目,以最大的后验方式构造了特定说话者的最佳子空间。两种算法,即匹配追踪和l 1正则化优化,都适用于解决此问题。通过有效的冗余基矢量去除机制和说话人坐标的迭代更新,基于匹配追踪的说话人自适应方法是快速有效的。匹配追踪算法是贪婪的和次优的,而使用显式的l 1正则化项对自适应数据的似然性进行直接优化可以获得未知说话人模型的更好近似。采用投影梯度优化算法,匹配追踪算法的几次迭代可

推荐下载

使用CSS禁止textarea调整大小功能的方法

主要介绍了使用CSS禁止textarea调整大小功能的方法,禁止可以调整textarea大小功能的方法很简单,使用CSS的resize属性即可,需要的朋友可以参考下

Android实现类似联系人右侧快速索引功能

android实现类似联系人右侧快速索引的功能

基于连续语音的说话人识别.zip

本代码是基于DTW(动态时间规则)算法以及GMM(混合高斯模型)进行的说话人识别的程序。现在大部分的说话人识别模型是基于MFCC的混合高斯模型设计的,但基于此的识别方式会受说话人之间相互模仿的影响,

基于FPGA的说话人识别系统设计

基于FPGA的说话人识别系统设计基于FPGA的说话人识别系统设计陈勇,李晶皎,石鑫,张莉佳摘要:说话人识别作为一种生物识别技术,能够根据测试语音来辨别说话者的身份。本文针对实时性问题提出了一种以FPG

基于DTW的编码域说话人识别研究

相对解码重建后的语音进行说话人识别,从VoIP的语音流中直接提取语音特征参数进行说话人识别方法具有便于实现的优点,针对G.729编码域数据,研究基于DTW算法的快速说话人识别方法。实验结果表明,在相关

说话人识别中语速鲁棒性研究

如今,说话人识别技术已经比较成熟,但依然有很多因素影响说话人识别系统的稳定性。本文针对说话速度对说话人识别的影响进行了一系列的研究工作。通过模型空间分布可视化和语音频谱观察两方面来分析不同语速语音的差

语音识别中的说话人自适应研究

语音识别

GMMHMM的语音识别说话人识别源码

该压缩包中包含一个完整的语音识别程序,代码使用matlab实现,使用了经典的GMM,HMM模型。附件中还包含完整的说明文档,介绍了一些基本原理,和该源码的使用方法。是语音识别入门必读源码之一。该源码只

基于PCA与LDA的说话人识别研究

基于PCA与LDA的说话人识别研究,仅供需要的人员参考!

基于SOPC的说话人识别控制器

SOPC 说话人识别语音识别算法论文有助于从事语音识别行业的从业人士

用户评论

请输入评论内容

评分：

暂无评论