最近因为与深度学习结合,解决海量数据的泛化问题,取得了让⼈印象深刻的成果。包括DeepMind的⾃动学习玩ATARI游戏,以及AlphaGo在围棋⼤赛中战胜世界冠军等,其背后的强⼤武器就是深度强化学习技术。相对于DeepMind和学术界看重强化学习的前沿研究,阿⾥巴巴则将重点放在推动强化学习技术输出及商业应⽤。在阿⾥移动电商平台中,⼈机交互的便捷,碎⽚化使⽤的普遍性,页⾯切换的串⾏化,⽤户轨迹的可跟踪性等都要求我们的系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。平台作为信息的载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整提供信息(商品、客服机器⼈的回答、路径选择等)的策略,从⽽最⼤化过程