今天,基于视觉的自动驾驶系统有两种主要范例:介导感知方法,解析整个场景以做出驾驶决定;行为反射方法,直接将输入图像映射到回归者的驾驶行为。在本文中,我们提出了第三种范式:直接感知方法来估计驾驶的可供性。我们建议将输入图像映射到与驾驶的道路/交通状态的可供性直接相关的少量关键感知指示符。我们的表示提供了一组紧凑而完整的场景描述,使简单的控制器能够自动驾驶。落在介导的感知和行为反射的两个极端之间,我们认为我们的直接感知表示提供了正确的抽象层次。为了证明这一点,我们使用视频游戏中12小时人类驾驶记录训练深度卷积神经网络,并证明我们的模型可以很好地在非常多样化的虚拟环境中驾驶汽车。我们还在KITTI数据集上训练汽车距离估计模型。结果表明,我们的直接感知方