SSLVC利用视觉线索实现声源定位

northwestern_78985 1 0 zip 2024-10-31 18:10:43

在CS598ps_project中，我们提出了一种创造性的方法，通过使用监督学习方法检测和跟踪视觉线索，从单个通道输入为多个源重建3D音频。我们还讨论了一种类似的方法，通过使用面部和语音可能性或简单地对视频流进行多模态说话人识别来改进视频流中说话人的分类。视频资产在：