奖励学习rl 该存储库是以下论文的正式实现: 无需奖励工程的端到端机器人强化学习艾维·辛格(Avi Singh),拉里·杨(Larry Yang),克里斯蒂安·哈蒂卡宁(Kristian Hartikainen),切尔西·芬恩(Chelsea Finn),谢尔盖·莱文(Sergey Levine) 2019 | | 视觉悬垂 视觉推送 视觉书架 可视开门 视觉推杆 视觉选择器 我们提出了一种使用深度强化学习对现实世界中的机器人技能进行端到端学习的方法。 我们直接在像素观察中学习这些策略,而无需任何人工设计或特定于任务的奖励功能,而是从少数用户提供的目标示例(大约80个)中学习了此类任