AVSpeech – 视听语音数据集.torrent

Peter_Wendy 126 0 TORRENT 2020-08-20 12:08:46

AVSpeech是一个新的,大规模的视听数据集,包括语音视频剪辑没有干扰的背景噪声。视频片段长3-10秒,每个片段中可听到的声音都属于一个说话的人,在视频中可以看到。总的来说,这个数据集包含了大约4700个小时的视频片段,来自于YouTube上总共290k个视频,涵盖了各种人、语言和面部姿势。

用户评论
请输入评论内容
评分:
暂无评论