Ta上传的资源 (0)

从深层神经网络中提取对说话人高度区分的嵌入仍然是说话人识别领域的一个挑战。本文提出了一种从多个时间规模来学习说话人嵌入的新网络。这一想法来自于最近的生物学研究,即人类听觉系统有一种将多时间规模信息融合在一起以编码声音信息的机制。本文提出了一种双通路神经网络,其中一个通路关注于短时(或局部)特征,另一