767最终IR 源码
767最终IR COMP 767最终项目 Alex Hoffman和Nikhil Podila 麦吉尔大学 我们从创建了重要性重采样算法的Python实现 我们还尝试了在重采样算法中添加优先体验重播 该代码需要以下软件包:numpy,gym,tensorflow,matplotlib。 如果使用anaconda,则可以通过pip install或conda install进行安装。 运行文件“ OffPolicyAgent_testing.py”将生成图,具体取决于在文件底部注释掉的函数。 超参数在文件正文中设置。 在测试功能中设置实验设置(LR扫描的学习率,更新次数,每次更新的步骤,批量
文件列表
767-final-IR-master.zip
(预估有个21文件)
767-final-IR-master
OffPolicyAgent.py
6KB
.3std_lrncurve_4rooms.csv
391KB
random_walk_env.py
1KB
DP_walk.py
736B
OffPolicyAgent_FourRooms.py
3KB
prioritized_memory.py
1KB
IRAgent_FourRooms.py
4KB
four_rooms_env.py
2KB
WISMinibatchAgent_FourRooms.py
1KB
暂无评论