超级马里奥兄弟PPO pytorch:超级马里奥兄弟的近距离策略优化(PPO)算法 源码

tricky6338 51 0 ZIP 2021-02-07 16:02:17

[PYTORCH]玩超级马里奥兄弟的近战策略优化(PPO) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸张近端策略优化算法推出近端政策优化(PPO)算法。 说到性能,我经过PPO培训的代理可以完成29/32个级别,这比我一开始的预期要好得多。 供您参考,PPO是OpenAI提出的算法,用于训练OpenAI Five,这是第一款在电竞游戏中击败世界冠军的AI。 具体而言,OpenAI五人队在2018年8月派出了一支由MMR排名的脚轮和前职业球员组成的团队,在Dota 2玩家的99.95%中排名。 样品结果 动机 自从我发布我的A3C实现( )

用户评论
请输入评论内容
评分:
暂无评论