论文笔记—DIVERSITY IS ALL YOU NEED_ LEARNING SKILLS WITHOUT A REWARD FUNCTION.pdf

lengyuewuqing 19 0 PDF 2020-08-08 13:08:57

论文摘要:聪明的生物可以在没有监督的情况下探索环境并学习有用的技能。在本文中,我们提出了“多样性就是你所需要的”(DIAYN),一种无需奖励功能即可学习有用技能的方法。我们提出的方法通过使用最大熵策略最大化信息理论目标来学习技能。在各种模拟的机器人任务上,我们证明了这个简单的目标会导致无监督技能的出现,例如走路和跳跃。在许多强化学习基准环境中,我们的方法可以解决学习基准任务,而无需接受真正的任务奖励。我们展示了受过预训练的技能如何为下游任务提供良好的参数初始化,以及如何进行层次组合以解决复杂,稀疏的奖励任务。我们的结果表明,无监督的技能发现可以作为有效的预培训机制,以克服强化学习中的探索和数据

资源预览

用户评论

暂无评论

论文笔记Unsupervised cross domain transfer in PGRL via manifold alignment.pdf

论文摘要：将策略梯度强化学习（RL）应用于困难的控制任务的成功，关键取决于确定策略明智的初始化的能力。转移学习方法通过重用从解决其他相关任务中收集到的知识来解决此问题。在多个任务域的情况下，这些算

8 2020-07-25
Raspberry Pi for Beginners All you nee

不错的树莓派入门资料TheRaspberryPihastakentheworldbystorm.Thecredit-cardsizecomputerhassoldoveramillionunitsa

12 2020-05-19
论文笔记A Theoretically Grounded Application of Dropout in Recurrent Neural Networ

这篇论文从贝叶斯论的角度分析了RNN网络的优化过程,并以此为基础提出了一种对RNN有效的dropout方法。它用到了近似变分推断的数学方法,这个我啃了好久还是苦于数学能力看得云里雾里。但还是先把笔记记

8 2021-01-08
MUREL Multimodal Relational Reasoning for Visual Question Answering论文笔记

1. Abstract Attention 机制注重于视觉内容与问题的相关联系,但难以解决复杂的推理问题。为了解决这个问题,本文提出了 MUREL 架构模型,简单来说 MUREL 由多个 MUREL

19 2021-01-16
论文笔记ATOM Accurate Tracking by Overlap Maximization.pptx

论文笔记-ATOMAccurateTrackingbyOverlapMaximization

6 2020-05-25
Neural Relation Extraction with Selective Attention over Instances论文笔记

该PPT为阅读Neural Relation Extraction with Selective Attention over Instances论文后所做的笔记，总结了论文中的主要技术，并大致梳理了

68 2018-12-07
Efficient average reward reinforcement learning using constant shifting values

Efficient average reward reinforcement learning using constant shifting values

8 2021-02-08
Learn Docker Fundamentals of Docker18.x Everything you need to know

EnhanceyoursoftwaredeploymentworkflowusingcontainersKeyFeaturesGetup-and-runningwithbasictoadvancedc

30 2019-09-03
10.Lessons.About.C++.You.Need.To.Learn.To.Become.A.Master.Programme

Title: 10 Lessons About C++ You Need To Learn To Become A Master Programmer Author: Andrew Webb Leng

4 2021-04-22
Python One to Million中文笔记

前言学完基本的语法之后不知道做什么?根本不知道学了编程能做什么? 本“书”的目的就在于提供一个这样的 index,内容涉及到 Python 开发的方方面面, 并提供对应实例代码&教程。本书致

15 2020-10-29

论文笔记—DIVERSITY IS ALL YOU NEED_ LEARNING SKILLS WITHOUT A REWARD FUNCTION.pdf

资源预览

用户评论

推荐下载