数据库为视频,将其转换成wav音频格式,便于进行语音情感识别