ContinuousControl DeepReinforcementLearning:深度强化学习纳米级的第二个项目 源码
深度强化学习纳米学位-项目2:持续控制 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 该任务是情节性的,并且为了解决环境,您的代理必须在100个连续情节中获得+30的平均得分。 开始 克隆此仓库。 通过下一个链接设置python环境: 将p2_continuous-control/文件夹的
文件列表
ContinuousControl-DeepReinforcementLearning-main.zip
(预估有个8文件)
ContinuousControl-DeepReinforcementLearning-main
Continuous_Control.ipynb
107KB
score.png
25KB
critic_checkpoint.pth
166KB
README.md
5KB
robots.gif
3.98MB
unity-environment.log
23B
actor_checkpoint.pth
165KB
Report.md
3KB
暂无评论