q学习matlab代码示例路基搜索 %s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报. %1、对每个s,a初始化表项Q(s,a)为0 %2、观察当前状态s %3、一直重复做: %选择一个动作a并执行它,该动作为使Q(s,a)最大的a。 接收到立即回报r。 观察
Q学习示例路径搜索matlab完整代码 %s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报. %1、对每个s,a初始化表项Q(s,a)为0 %2、观察当前状态s %3、一直重复做: %选择一个动作a并执行它,该动作为使Q(s,a)最大的a。 接收到立即回报r。 观察