使用演化策略模型学习RL的综合环境: AcroBot-v1和CartPole-v0: 可以在这里下载模型: : 文献资料 待办事项:更新requiements.txt 学习综合环境 优化用于学习合成环境的超参数(三级优化) 用于GridWorld和OpenAI Gym任务 分数转换的评估 (5.2合成环境:分数转换,图6) HPO后训练综合环境 用于GridWorld和OpenAI Gym任务(5.5。综合环境:性能,图12) 剩余脚本列表 产生以下图形的脚本列表(以及如何调用):2,7,8,10 学习奖励塑造 培训奖励网络 (5.7奖励塑造:绩效,图14) 评估HP差异和转移 (5.