p2_continuous control:Udacity深度强化学习NanoDegree 项目2 机械手臂控制 源码
项目2:连续控制 介绍 对于此项目,您将使用环境。 ![训练有素的经纪人] [image1] 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 分布式培训 对于此项目,我们将为您提供两个单独的Unity环境版本: 第一个版本包含一个代理。 第二个版本包含20个相同的代理,每个代理都有自己的环境副本。 第二个版本对于 , 和类的算法很有用,这些算法使用同一代理的多个(非交互,并行)副本来分发收集经验的任务。 解决环境 请注意,您的项目提交仅需要解决环境的两个版本之一。 选项1:解决第一个版
文件列表
p2_continuous-control-master.zip
(预估有个10文件)
p2_continuous-control-master
Continuous_Control_20agents.ipynb
54KB
.ipynb_checkpoints
Continuous_Control_20agents-checkpoint.ipynb
54KB
checkpoint_actor.pth
166KB
.gitattributes
66B
checkpoint_critic.pth
166KB
unity-environment.log
23B
environment.yml
3KB
README.md
6KB
暂无评论