RPG(奖励随机化政策梯度) 汤正刚*,赵超*,陈伯元,徐华哲,王小龙,方飞,西蒙·邵雷,王玉,吴仪(*均分) **网站:** 这是RPG(奖励随机化政策梯度)的源代码,该论文在“通过奖励随机化发现多样化的多主体策略行为” [[TODO:arxiv链接]](arxiv链接)中提出。 1.支持的环境 1.1琼脂 ![Agar.io]( ) 是一种流行的多人在线游戏。 玩家控制培养皿中的一个或多个细胞。 目的是通过吃掉比玩家的细胞小的细胞来获得尽可能多的质量,同时避免被更大的细胞吞噬。 较大的细胞移动较慢。 每个玩家都从一个单元开始,但是可以将足够大的单元分成两部分,从而可以控制多个单元。 该控制是通过鼠标移动来执行的:播放器的所有单元都朝着鼠标位置移动。 我们将Agar ( )的“全民免费(FFA)”模式转换为强化学习(RL)环境,我们相信它可以用作新的Multi-agent