论文研究自适应重要采样ActorCritic算法 .pdf

weixin_39882200 22 0 PDF 2020-04-20 10:04:35

自适应重要采样Actor-Critic算法,冯涣婷,,在离策略Actor-Critic(AC)强化学习中,虽然Critic使用重要采样技术可以减小值函数估计的偏差,但是重要采样方法没有考虑估计的方差,算��

用户评论
请输入评论内容
评分:
暂无评论