高效准确地识别视觉重叠图像对是大规模运动结构SfM面临的持续挑战.最近基于CNN的方法已经证明了找到视觉上相似的图像对的能力.具有手工制作或基于学习的局部特征的BoW词袋或视觉词汇树VoC已广泛嵌入到3D重建任务中.为了探索相应的差异在这项工作中我们根据为确定SfM的视觉重叠图像对而定制的规律微调了几种流行的CNN AlexNet VGG ResNet.更具体地说通过充分考虑摄影测量要求和3D网格模型生成了由常规摄影测量图像和来自Internet的众包图像组成的新训练数据集称为LOIP.在微调过程中采用配对图像的局部区域重叠信息.为了聚合来自不同通道的特征图针对每个区域信息采用可学习的多个NetVLAD以进一步提高检索性能.