udacity_drl_project_3 源码
项目3:合作与竞争 介绍 在这个项目中,我们训练了一个深度强化学习者,在Unity环境中打网球。可以在找到更详细描述解决方案的报告。 在这种环境下,两名特工控制球拍在球网上弹跳球。如果探员将球击中网,则得到+0.1的奖励。如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。因此,每个特工的目标是保持比赛中的球权。 状态与行动空间 状态空间由8个变量组成,分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 解决方案 任务是情节性的。当最高得分在100个情节中达到0.5的平均得分时,这些代理被认为在当前环境中是成功的。但是,我们并没有将其停下来得分为0.5,而是进一步运行它们以判断不同的训练特征。 入门 1通过运行“ conda env create -f environment.yml”,使用此
文件列表
udacity_drl_project_3-main.zip
(预估有个7文件)
udacity_drl_project_3-main
environment.yml
4KB
results
scores_uniformreplay.csv
17KB
scores_prioritizedreplay.csv
17KB
checkpoints
checkpoint_critic_uniformreplay_400.pth
567KB
checkpoint_actor_uniformreplay_400.pth
566KB
tennis.gif
505KB
README.md
3KB
暂无评论