带Q学习和SARSA的MountainCar-v0 该项目包含用于培训代理商以解决。 Q-Learning和SARSA 山地车环境 环境是二维的,由两座山丘之间的汽车组成。 汽车的目标是到达右侧山顶的旗帜。 丘陵太陡峭,以至于仅通过向同一方向移动就无法缩放汽车,它必须后退并第四次建立足够的动力才能向上行驶。 观察空间: 这是两个确定环境当前状态的变量。 赛车在赛道上的位置,从-1.2到0.6 轿厢速度,从-0.07到0.07。 左为负,右为正。 动作: 汽车可以采取以下三种不同的动作之一: 向左加速 不要加速 向右加速。 报酬: 在每个步骤中,汽车会根据该操作后达到的状态获得奖励