实习任务 该存储库用于解决2021年夏季研究实习的任务“实施DQN,政策梯度或演员批评RL算法以解决Mountain-Car健身房环境” 详细说明 我已经实现了(简单/香草)深度Q网络(DQN)算法,该算法具有经验重播缓冲区,并且在“ DQN.py”内部频繁更改目标网络。 此DQN实施的受过训练的代理的gif 经过原始环境测试之后,培训没有任何改善。 因此,我更改了奖励功能,以测试不同的行为并看到一些改进。 已经测试了多种奖励功能,以符合所需的行为: 左右快速移动->与速度相关[第二观察] 靠近目标->与位置相关[第一观察] 我注意到一些观察结果: 当只有头寸在奖励中(或头寸占主导地位)时,它只会尝试不通过左右移动而只是向上移动 当只有速度在奖励(或速度主导)中时,它使得它只能左右快速移动,而不在乎真实的目标(位置) 为此,我做了一个新的奖励功能: 使得r是来自环境的原始