近年来,强化学习特别是深度强化学习在棋类、视屏游戏、机器人控制等问题上取得了极大的成功,成为人工智能研究的热点。微软亚洲研究院的秦涛研究员在报告《强化学习简介》中对强化学习做一个简要介绍。该报告分为3个部分:1、强化学习基础,包括:马氏决策过程Bellman方程规划最优控制蒙特卡洛采样TD算法2、强化学习新算法,包括:基于值函数的算法基于策略函数的算法基于两者的混合算法3、强化学习所面临的挑战,如鲁棒性、样本效率等