ICASSP 2019 TDSV 论文翻译.pdf
从深层神经网络中提取对说话人高度区分的嵌入仍然是说话人识别领域的一个挑战。本文提出了一种从多个时间规模来学习说话人嵌入的新网络。这一想法来自于最近的生物学研究,即人类听觉系统有一种将多时间规模信息融合在一起以编码声音信息的机制。本文提出了一种双通路神经网络,其中一个通路关注于短时(或局部)特征,另一个关注于长期(或全局)尺度。这两个特征被融合到一个特征向量中,并且从这些特征中提取话语级说话人嵌入。实验结果表明,不同的时间规模特征是互补的。它们的融合称为t-vector,优于i-vector和其它深度嵌入。此外,通过端到端训练,即使使用简单的评分方法如余弦距离,t-vector也可获得优异的性能
暂无评论