以传统的词袋模型为基础,根据相邻镜头关键帧之间具有相关性的特点提出了一种用于视频场景分类的模型。将视频片段进行分割,提取关键帧,对关键帧图像归一化。将关键帧图像作为图像块以时序关系合成新图像,提取新图像的SIFT特征及HSV颜色特征,将图像的SIFT特征及HSV颜色特征数据映射到希尔伯特空间。通过多核学习,选取合适的核函数组对每个图像进行训练,得到分类模型。通过对多种视频进行实验,实验结果表明,该方法在视频场景分类中能取得很好的效果。