深度Q学习导航:香蕉选取器 该项目实施了Deep Q Learning策略,以在具有蓝色和黄色香蕉的环境中导航,目的是仅摘取黄色香蕉。 使用Unity完成环境模拟。 与环境交互的代理选择黄色香蕉获得+1的奖励,而选择蓝色香蕉则获得-1的奖励。 如果该代理在单个情节中获得的累积分数达到13,则认为该代理已成功浏览环境。 导航环境的主体在学习如何实现其目标时采用了深度学习方法。 在Python中使用,该问题通过以下方式解决: 该模型 对于每次交互,代理都会观察环境的当前状态,选择一个动作并根据所采取的动作获得奖励。 在这种情况下,动作可以是以下任一动作:前进,后退,左转或右转。 使用神经网络