使用对象检测算法时,基本方法是尝试通过在目标对象周围绘制边界框来定位目标对象。由于可能存在多个感兴趣的对象,并且事先不知道它们的出现次数,因此会产生可变长度的输出层,这意味着无法通过构建由完全连接的层组成的标准深度神经网络来解决对象检测问题。解决此问题的一种方法是从图像中获取不同的感兴趣区域,并使用神经网络检测每个特定区域内是否存在所需对象。由于所需对象在图像中可能具有不同的纵横比和位置,从而导致大量区域并最终在计算上爆炸,因此该方法似乎也失败了。