%s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报.   %1、对每个s,a初始化表项Q(s,a)为0   %2、观察当前状态s   %3、一直重复做:   %选择一个动作a并执行它,该动作为使Q(s,a)最大的a。  接收到立即回报r。  观察新状态s'。   %对Q(s',a')按照下式更新表项:  Q(s,a)=r+gama*maxQ(s',a')。  s=s'。