强化学习与监督学习的区别: (1)训练数据中没有标签,只有奖励函数(Reward Function)。 (2)训练数据不是现成给定,而是由行为(Action)获得。 (3)现在的行为(Action)不仅影响后续训练数据的获得,也影响奖励函数(Reward Function)的取值。 (4)训练的目的是构建一个“状态->行为”的函数,其中状态(State)描述了目前内部和外部的环境,在此情况下,要使一个智能体(Agent)在某个特定的状态下,通过这个函数,决定此时应该采取的行为。希望采取这些行为后,最终获得最大的奖励函数值。 定义: 假设状态数有限,行为数有限。 RtR_{t}Rt​:t时刻的奖