BembaSpeech ASR语料库 介绍 BembaSpeech是基于公开发行的Bemba文学书籍的赞比亚Bemba语言阅读语音的语料库。 其目的是使能够使用本巴语言对自动语音识别(ASR)系统进行培训和测试。 语料库有14 438条话语,最终达到24.5小时的语音数据。 所有信号文件均以16K Hz的采样率从单声道录制以波形音频文件格式(WAVE)进行编码。 结构体 语料库分为三个部分: -大约20个小时的演讲时间 -大约2.5个小时的演讲时间 -测试装置,大约2个小时的演讲时间 这些子集是不相交的,即,每个扬声器的音频被精确分配给一个子集。 每个演讲者贡献的分配如下: _____________________________________________________________________________________________ | NAME | D