探索 重新实现:重新实现我的控制探索工作 源码
高效采样 arXiv论文中的实验 没有奖励 Gridworld: 我们的方法(因子+快速+乐观): python main.py --eval_every 1 --env gridworld --task default --n_state_bins 20 --env_size 20 --n_action_bins 4 --max_steps 100 --policy uniform --name grid20_puniform 不乐观: python main.py --eval_every 1 --env gridworld --task default --n_state_bins 20 --env_size 20 --n_action_bins 4 --max_steps 100 --policy uniform --no_optimistic_updates --no_opt
文件列表
exploration-reimplementation-master.zip
(预估有个47文件)
exploration-reimplementation-master
visit counts.ipynb
20.3MB
dmcontrol_gridworld.py
3KB
experiment_logging.py
5KB
main_ablation_slow.py
23KB
gridworld.py
3KB
onehot_deep_q_functions.py
3KB
q_learning.py
9KB
.gitmodules
114B
point.xml
2KB
暂无评论