将卷积神经网络应用于大型图像的计算成本很高,因为计算量与图像像素的数量成线性关系。我们提出了一种新颖的递归神经网络模型,其能够通过自适应地选择区域或位置序列并且仅以高分辨率处理所选区域来从图像或视频中提取信息。与卷积神经网络一样,该模型具有一定程度的内部平移不变性,但其执行的计算量可以独立于输入图像大小进行控制。该模型是不可微分的,可以使用强化学习方法对其进行训练,以学习特定于任务的策略。我们在几个图像分类任务和动态视觉控制问题上对我们的模型进行了评估,在这些任务中,该模型在杂乱图像上的表现明显优于卷积神经网络;在动态视觉控制问题中,该模型在没有明确训练信号的情况下学习跟踪简单对象。