本文分享中国科学院大学强化学习课程大作业Mountain Car with Probabilities的相关内容。这是一个连续控制任务的例子,汽车需要在一维轨道上爬过两座山峰。通过使用半梯度sarsa算法并对动作概率进行修改,成功实现了汽车在不停向前冲的情况下完成任务的具体操作。如果您对Mountain Car问题感兴趣,本文不容错过。