论文摘要:聪明的生物可以在没有监督的情况下探索环境并学习有用的技能。在本文中,我们提出了“多样性就是你所需要的”(DIAYN),一种无需奖励功能即可学习有用技能的方法。我们提出的方法通过使用最大熵策略最大化信息理论目标来学习技能。在各种模拟的机器人任务上,我们证明了这个简单的目标会导致无监督技能的出现,例如走路和跳跃。在许多强化学习基准环境中,我们的方法可以解决学习基准任务,而无需接受真正的任务奖励。我们展示了受过预训练的技能如何为下游任务提供良好的参数初始化,以及如何进行层次组合以解决复杂,稀疏的奖励任务。我们的结果表明,无监督的技能发现可以作为有效的预培训机制,以克服强化学习中的探索和数据