Udacity深度强化学习纳米学位-项目3:合作与竞争 介绍 对于这个Udacity项目,我使用了一个DDPG代理来解决多代理协作环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最大分值