本文详细研究了基于深度强化学习的机械臂抓取摆放与堆叠系统,并采用AprilTag视觉标签、后视经验回放机制,实现了稀疏奖励下的机械臂的抓取任务。此外,本文还提出了结合深度确定性策略梯度及后视经验回放的分段学习算法,相对于传统控制算法,强化学习提高了抓取的准确度及稳定性在仿真与实际系统中都验证了效果。