平均和折扣报酬准则下的逆向强化学习,陶钊榕,陈智超,逆向强化学习是利用专家示教行为构建潜在报酬函数的过程。本文从性能灵敏度分析的角度研究了逆向强化学习的原理,通过分析专家策