从R-CNN到Fast R-CNN一直采用的思路是proposal+分类(proposal提供位置信息,分类提供类别信息)精度已经很高,但是速度还不行。 YOLO提供了另一种更为直接的思路:直接在输出层回归bounding box的位置和bounding box所属的类别(整张图作为网络的输入,把Object Detection的问题转化成一个Regression问题)。 YOLO的主要特点是速度快,在Titan X的GPU上能够达到45帧每秒,并使用全图作为Context信息,背景错误比较少,具有强大的泛化能力。