端到端 只是一堆用于音频分类的端到端架构。 架构的输入是原始音频信号的向量。 输出是softmax层,该层将音频分类为10类。 来自以下论文的模型: RawNet:Jung,Jee-weon等。 “ Rawnet:先进的端到端深度神经网络,使用原始波形进行与文本无关的说话者验证。” arXiv预印本arXiv:1904.08104(2019)。 1DCNN,1D Gammatone:Abdoli,Sajjad,Patrick Cardinal和Alessandro Lameiras Koerich。 “使用一维卷积神经网络进行端到端环境声音分类。” 专家系统的应用程序136(2019):2