使用深度强化学习的机器人抓取 在模拟环境中进行强化学习,以控制Baxter机器人机械手。 BaxterEnv.lua与Atari DQN交互以提供符合以下的自定义环境。 将大小调整后的7x60x60张量(来自Baxter内置摄像机的一张RGB图像,来自外部摄像机的一张RGB图像,以及第四通道中的电机位置信息)从模拟器传递到DQN,然后将命令传递回模拟器。 在启动和重置时,将以随机的方向生成一个彩色的球体,圆柱体或盒子。 纺纱机机器人试图导航其手臂以捡起物体。 当前,手臂上的运动仅限于在腕部和肩膀处的旋转,以及在扩大范围的同时迫使抓持器朝下的能力。 尝试拾取对象会导致终止,因为不成功的尝试