EnsembleDAgger A Bayesian Approach to Safe Imitation Learning.pdf
模仿学习经常被用在机器人学,这种方法经常遭受数据的错配和组合的错误。 DAgger是一种迭代的算法,解释了聚合的训练数据集中来自专家的和初学者的策略的问题,但是没有考虑到安全性的影响。该方法对DAgger进行了概率性的延伸,尝试量化初学者策略的自信度来作为一种安全性的代理。通过EnsembleDAgger近似集成神经网路的GP算法。用方差作为自信度,捕捉初学者的疑问度来计算决策准则,从而来决定什么时候初学者的行动是安全的。通过这种方法,目的是最大限度共享初学者的行动,控制其失败的概率。我们通过比较在摇摆震荡和MuJoCo的HalfCheetah的环境中其他的DAgger方差和经典的模仿学习,展示了其方法的安全性和学习能力。