Ta上传的资源 (0)

%s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报.   %1、对每个s,a初始化表项Q(s,a)为0   %2、观察当前状态s   %3、一直重复做:   %选择一个动作a并执行它,该动作为使Q(s,a)最大的a。  接收到立即回报r。  观察

%s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报.   %1、对每个s,a初始化表项Q(s,a)为0   %2、观察当前状态s   %3、一直重复做:   %选择一个动作a并执行它,该动作为使Q(s,a)最大的a。  接收到立即回报r。  观察