Internship Task:该存储库用于解决实习任务 源码
实习任务 该存储库用于解决2021年夏季研究实习的任务“实施DQN,政策梯度或演员批评RL算法以解决Mountain-Car健身房环境” 详细说明 我已经实现了(简单/香草)深度Q网络(DQN)算法,该算法具有经验重播缓冲区,并且在“ DQN.py”内部频繁更改目标网络。 此DQN实施的受过训练的代理的gif 经过原始环境测试之后,培训没有任何改善。 因此,我更改了奖励功能,以测试不同的行为并看到一些改进。 已经测试了多种奖励功能,以符合所需的行为: 左右快速移动->与速度相关[第二观察] 靠近目标->与位置相关[第一观察] 我注意到一些观察结果: 当只有头寸在奖励中(或头寸占主导地位)时,它只会尝试不通过左右移动而只是向上移动 当只有速度在奖励(或速度主导)中时,它使得它只能左右快速移动,而不在乎真实的目标(位置) 为此,我做了一个新的奖励功能: 使得r是来自环境的原始
文件列表
Internship-Task-main.zip
(预估有个13文件)
Internship-Task-main
reinforce.py
0B
gif
agent.gif
403KB
agent2.gif
396KB
DQN.py
8KB
README.md
3KB
learn.py
1KB
run_agent.py
2KB
dqn_trained_agents
暂无评论