batch_rl:Atari 2600游戏上的离线强化学习(又名批量强化学习) 源码
离线强化学习的乐观观点(ICML,2020年) 该项目使用框架提供开放源代码实施,以运行提到的实验。 在这项工作中,我们使用DQN代理的记录的经验在脱机设置(即 )中训练非策略代理(如下所示),而在训练过程中不与环境进行任何新的交互。 有关项目页面,请参考 。 如何在50M数据集上训练脱机代理而没有RAM错误? 请参阅 。 DQN重播数据集(记录的DQN数据) DQN重播数据集的收集方式如下:我们首先在60款训练代理,并为2亿帧(标准协议)启用了,并保存(观察,动作,奖励,下一个)的所有体验元组。观察) (约5000万)。 可以在公共gs://atari-replay-datasets
文件列表
batch_rl-master.zip
(预估有个44文件)
batch_rl-master
README.md
8KB
batch_rl
baselines
configs
random.gin
1KB
quantile.gin
1KB
dqn.gin
2KB
train.py
3KB
agents
暂无评论