从零开始使用CNN进行性别识别 我们使用CNN来预测30位说话者(15位男性和15位女性)中的性别,我们从头开始设计CNN,而无需使用任何tensorflow或keras库,并且在对模型从未听过的说话者性别进行分类时获得了93.47%的准确性。 问题是学习如何处理音频数据并建立模型以对声音进行分类。 我们做了很多研究,以了解如何解决该问题以及许多人如何解决该问题。 在这种方法中,我们将音频片段转换为图片(梅尔频谱图),并使用这些图片来训练卷积神经网络模型(CNN)。