强化学习:强化学习算法的实现。 PythonOpenAI GymTensorflow 萨顿书和戴维·西尔弗课程的练习和解决方案 源码

please_38014 6 0 ZIP 2021-02-19 12:02:18

总览 该存储库提供了流行的强化学习算法的代码,练习和解决方案。 这些旨在作为一种学习工具来补充来自 中的每个文件夹对应于上述教科书和/或课程的一个或多个章节。 除了练习和解决方案之外,每个文件夹还包含学习目标列表,简要概念摘要以及指向相关阅读材料的链接。 所有代码均使用Python 3编写,并使用RL环境。 先进的技术将用于神经网络实现。 目录 (WIP) (WIP) 学习与计划(WIP) 勘探与开发(WIP) 实施算法清单 优先体验重播(WIP)的深度Q学习 连续操作空间(WIP)的确定性策略梯度 深度确定性策略梯度(DDPG)(WIP) 资源资源 教科书: 类: 讲座/教程:

用户评论
请输入评论内容
评分:
暂无评论