蒙特卡洛算法.docx

Nirvanaism 12 0 DOCX 2021-04-26 11:04:45

动态规划方法计算状态处的值函数时利用了模型P_(ss^,)^a而在无模型强化学习中,模型P_(ss^,)^a是未知的。无模型的强化学习算法要想利用策略评估和策略改善的框架,必须采用其他的方法对当前策略进行评估(计算值函数)。

蒙特卡洛算法.docx

用户评论
请输入评论内容
评分:
暂无评论