强化学习的目的是最大化长期未来奖励,即寻找最大的 U。(注:回报也作 G 表示) 基于回报(return),我们再引入两个函数 状态价值函数:,意义为基于 t 时刻的状态...