蒙特卡洛算法.docx 下载 Nirvanaism 12 0 DOCX 2021-04-26 11:04:45 动态规划方法计算状态处的值函数时利用了模型P_(ss^,)^a而在无模型强化学习中,模型P_(ss^,)^a是未知的。无模型的强化学习算法要想利用策略评估和策略改善的框架,必须采用其他的方法对当前策略进行评估(计算值函数)。 立即下载 微信扫一扫:分享 微信里点“发现”,扫一下 二维码便可将本文分享至朋友圈。