深度强化学习代理 该存储库包含以Tensorflow编写的强化学习算法的集合。 这里编写的ipython笔记本是与我在发布的仍在进行中的教程系列一起编写的。 如果您不熟悉强化学习,建议阅读随附的每种算法的文章。 该存储库当前包含以下算法: Q表-使用表解决随机环境问题的Q学习的实现。 Q-Network -Q-Learning的神经网络实现,用于解决与Q-Table中相同的环境。 简单策略-一种针对无状态环境(例如n型武装匪徒问题)的策略梯度方法的实现。 Contextual-Policy (上下文策略) -一种针对状态环境(例如上下文匪徒问题)的策略梯度方法的实现。 策略网络-一