论文研究 平均和折扣报酬准则下的逆向强化学习 .pdf

weixin_39882200 6 0 PDF 2020-12-13 14:12:28

平均和折扣报酬准则下的逆向强化学习,陶钊榕,陈智超,逆向强化学习是利用专家示教行为构建潜在报酬函数的过程。本文从性能灵敏度分析的角度研究了逆向强化学习的原理,通过分析专家策

用户评论
请输入评论内容
评分:
暂无评论