Internship Task:该存储库用于解决实习任务源码

streak3981 19 0 ZIP 2021-04-08 11:04:19

实习任务该存储库用于解决2021年夏季研究实习的任务“实施DQN,政策梯度或演员批评RL算法以解决Mountain-Car健身房环境” 详细说明我已经实现了(简单/香草)深度Q网络(DQN)算法,该算法具有经验重播缓冲区,并且在“ DQN.py”内部频繁更改目标网络。此DQN实施的受过训练的代理的gif 经过原始环境测试之后,培训没有任何改善。因此,我更改了奖励功能,以测试不同的行为并看到一些改进。已经测试了多种奖励功能,以符合所需的行为: 左右快速移动->与速度相关[第二观察] 靠近目标->与位置相关[第一观察] 我注意到一些观察结果: 当只有头寸在奖励中(或头寸占主导地位)时,它只会尝试不通过左右移动而只是向上移动当只有速度在奖励(或速度主导)中时,它使得它只能左右快速移动,而不在乎真实的目标(位置) 为此,我做了一个新的奖励功能: 使得r是来自环境的原始

文件列表

Internship-Task-main.zip (预估有个13文件)

Internship-Task-main

reinforce.py 0B

gif

agent.gif 403KB

agent2.gif 396KB

DQN.py 8KB

README.md 3KB

learn.py 1KB

run_agent.py 2KB

dqn_trained_agents

agent2

best_model_dqn 21KB

best_model_dqn_testing.png 141KB

best_model_dqn.png 203KB

agent1

best_model_dqn 21KB

actor_critic.py 0B

.gitignore 2KB

用户评论

暂无评论

Flutter Task App Flutter任务UI滴灌源码

Flutter-Task-App:Flutter任务UI(滴灌)

22 2021-02-10
developer resources该存储库已过时将被存档源码

Neo4j开发人员资源这是带有开发人员资源部分的源内容的存储库。内容以文本格式,以使用渲染的AsciiDoc格式编写,并使用erb模板转换为HTML,并推送到gh-pages分支进行预览,并推送到

14 2021-04-23
polkaswap exchange web该存储库由Terraform管理源码

polkaswap-exchange-web 项目部署信息有一个public/env.json文件,其中包含BASE_API_URL和DEFAULT_NETWORKS变量。 BASE_API_URL

10 2021-03-02
reading notes该存储库与阅读相关notes源码

阅读笔记关于我我是mustafa jdeitawi,今年23岁,我在albalqaa应用大学学习了土木工程,因此我决定开始软件之旅,成为一名优秀的软件开发人员。我的github帐户: 代码301

8 2021-04-04
Gateway Assignments该存储库包含所有作业提交源码

网关分配该存储库包含所有分配。

12 2021-04-18
Laporan KP该存储库包含KP报告文件源码

报告KP 该存储库包含KP报告文件。

10 2021-04-24
解决问题此存储库用于单独练习PS问题解决源码

解决问题:此存储库用于单独练习PS(问题解决)

13 2021-04-07
独立任务Independent Task Scheduling

Independent Task Scheduling

56 2018-12-20
LiteOS_Task_任务1

该工程文件是基于LiteOS编写的，开发板是在某宝上淘的一套。方便学习LiteOS中的知识点“任务”

24 2020-05-15
Springboot定时任务task

使用springboot 构建的 spring task 定时任务,采用异步任务形式,防止任务堵塞.

45 2018-12-28

Internship Task:该存储库用于解决实习任务 源码

文件列表

用户评论

推荐下载

Internship Task:该存储库用于解决实习任务源码