q学习matlab代码示例路基搜索
%s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报.
%1、对每个s,a初始化表项Q(s,a)为0
%2、观察当前状态s
%3、一直重复做:
%选择一个动作a并执行它,该动作为使Q(s,a)最大的a。 接收到立即回报r。 观察新状态s'。
%对Q(s',a')按照下式更新表项: Q(s,a)=r+gama*maxQ(s',a')。 s=s'。
文件列表
Q_learning.rar
(预估有个2文件)
Q_learning
ReinforcementLearning.m
2KB
RandomPermutation.m
574B
暂无评论