论文笔记Unsupervised cross domain transfer in PGRL via manifold alignment.pdf
论文摘要:将策略梯度强化学习(RL)应用于困难的控制任务的成功,关键取决于确定策略明智的初始化的能力。转移学习方法通过重用从解决其他相关任务中收集到的知识来解决此问题。在多个任务域的情况下,这些算法需要任务间映射以促进跨域的知识转移。但是,当前没有通用的方法来学习任务间映射,而不需要RL设置中通常不存在的背景知识,也不需要对状态和动作的大小以指数形式进行的任务间映射的昂贵分析本文介绍了一种自治框架,该框架使用无监督的流形对齐来学习任务间映射并有效地在不同任务域之间传递样本。包括在四旋翼控制中的应用在内的各种动力学系统的经验结果证明了其在策略梯度RL的情况下对跨域转移的有效性
暂无评论