使用TORGO数据集进行语音处理 有关使用Kaldi进行韵律性语音识别和说话者识别的教程。 所使用的数据由多伦多大学免费提供。 说话者由于脑瘫或肌萎缩性侧索硬化症而导致语言障碍。 这项运动的目标 建立用于语音识别的基于kaldi的GMM​​-HMM声学模型。 提高对受损语音的识别精度(数据增强,超参数调整等) 使用GMM-HMM模型中的路线训练DNN-HMM声学模型。 通过i向量执行说话者识别/识别。 栏目 第1部分: 第2部分: 第3部分: GMM-HMM声学模型 DNN-HMM声学模型 第4部分: 栏目详细信息 第1部分安装 卡尔迪 SRI语言建模工具包 Sequitur音素到音素转换器 英特尔MKL(数学内核库) 第2部分数据准备 音频数据下载 我们需要创建的文件 Kaldi目录结构 第三部分语音识别 N-gram语言模型构建 MFCC提取+ CMVN(倒数均值和方差归一