AutoSpeech:用于说话人识别的神经体系结构搜索 本文的代码 丁少金*,陈天龙*,龚新宇,查微微,王章阳 概述 基于卷积神经网络(CNN)的说话人识别系统通常是使用现成的主干网构建的,例如VGG-Net或ResNet。但是,这些主干最初是用于图像分类的,因此可能自然不适合说话人识别。由于手动探索设计空间的复杂性过高,我们提出了第一种用于说话人识别任务的神经体系结构搜索方法,称为AutoSpeech 。我们在上的评估结果表明,从提议的方法衍生的CNN架构明显优于基于VGG-M,ResNet-18和ResNet-34骨干的当前说话人识别系统,同时具有较低的模型复杂性。 结果 我们提出的方法优于基于VGG-M,ResNet-18和ResNet-34主干的说话人识别系统。详细的比较可以在我们的论文中找到。 方法 前1名 能源效率 参数 预训练模型 VGG-M 80.50 10.20 6