强化学习在阿里的技术演进与业务创新 当前的机器学习算法⼤致可以分为有监督的学习、⽆监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习⽅法不同之处在于强化学 习是智能系统从环境到⾏为映射的学习,以使奖励信号函数值最⼤。