ds_drl_tennis_player:我的项目(协作和竞争)的存储库其中包含深度强化学习 源码
通过深度强化学习打网球 该项目包含一个基于深度强化学习的代理,该代理可以从零(无标签数据)中学习打网球。 \ o / 它使用来设计,训练和评估深度强化学习算法的实现。 该项目使用的环境是的Udacity版本的 。 这个Unity环境有两个版本: 该项目是我的。 环境细节 在这种环境下,两名特工控制球拍在球网上弹跳球。 奖励 如果探员将球击中网,则将获得+0.1的奖励。 如果探员让一个球击中地面或将球击出界外,则其收益为-0.01 。 因此,每个特工的目标是保持比赛中的球权。 状态和动作空间 观察空间由8变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 解决环境 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最大分值之后,连续100次以上)。
用户评论
推荐下载
-
深度强化学习课件lecture1
课件来自于UCberkeley课程官网,内容是深度强化学习课程的第一节课的课件,其中包含了深度学习、强化学习的简介;其他学习方式的介绍;典型的实验;推荐阅读的文章。
19 2020-02-20 -
深度强化学习综述x2
深度强化学习综述(刘全等)深度强化学习综述:兼论计算机围棋的发展
20 2019-05-25 -
PlaNet深度强化学习网络解析
PlaNet深度强化学习网络解析,Everything you need to know about Google’s new PlaNet reinforcement learning networ
34 2019-04-15 -
深度强化学习在aicar应用代码
基于gym的强化学习智能小车代码历程,包含Q_learning和policygradient的实现
24 2019-05-15 -
DeepMind关系型深度强化学习RelationalDeepReinforcementLearning
RelationalDeepReinforcementLearning--Weintroduceanapproachfordeepreinforcementlearning(RL)thatimprov
34 2019-07-11 -
深度强化学习基于人类偏好.pdf
基于人类偏好的深度强化学习方法,通过分析人类的行为数据和偏好,将其纳入强化学习框架中进行训练,从而提高智能体的决策能力和学习效果。算法采用了深度神经网络和强化学习算法的结合,通过对人类偏好的建模和学习
12 2023-07-22 -
深度强化学习mujoco平台搭建指南
详细总结了如何在ubuntu16.04的基础上搭建深度强化学习mujoco的环境,可按照Openai的gym针对mujoco-py进行深度强化学习训练,解决了mujoco安装后,Ubuntu重启键盘鼠
38 2019-01-09 -
强化学习火炬源码
深度强化学习火炬 该存储库使用pytorch实现了不同的流行的深度强化学习算法。 这些旨在用作学习工具,以补充来自以下方面的学习材料: 深度Q学习
7 2021-04-04 -
强化学习
包含第六、七、八章内容的技术文档。
4 2024-05-03 -
基于强化学习和深度学习的实体关系联合抽取
基于强化学习和深度学习的实体、关系联合抽取的最新论文
47 2019-04-29
暂无评论