视频的结构分析是实现视频基于内容组织和检索的基础。目前,已经有很多用于视频镜头分割的成熟算法,但准确探测视频场景边界还比较困难。提出了一种融合视频中音频与可视特征进行场景检测的方法。该方法首先分别依据镜头的声、像特征相关性来对镜头进行聚类,然后综合处理依声、像相关性得到的镜头聚类来获取场景。实验结果证明,此方法较一般使用单一特征的场景检测方法提高了探测的准确率,同时也降低了误判率。