通过梅尔倒谱变换得到10个人144维音频数据用于说话人识别