通过深度强化学习打网球 该项目包含一个基于深度强化学习的代理,该代理可以从零(无标签数据)中学习打网球。 \ o / 它使用来设计,训练和评估深度强化学习算法的实现。 该项目使用的环境是的Udacity版本的 。 这个Unity环境有两个版本: 该项目是我的。 环境细节 在这种环境下,两名特工控制球拍在球网上弹跳球。 奖励 如果探员将球击中网,则将获得+0.1的奖励。 如果探员让一个球击中地面或将球击出界外,则其收益为-0.01 。 因此,每个特工的目标是保持比赛中的球权。 状态和动作空间 观察空间由8变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 解决环境 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最大分值之后,连续100次以上)。