新闻视频中的独白镜头具有较大的信息量,在视频检索和挖掘中具有较高的应用价值。提出了一种融合音频、视频、时域以及上下文信息等多模态特征进行独白场景检测的方法。首先利用规则移除广告和“其他”镜头,然后应用聚类的方法检测主持人镜头,最后应用条件随机场(CRFs)模型标记独白和记者镜头。该方法无需额外的信息,具有较好的普适性,实验取得了较好的性能。