在DeepMing任职的NandodeFreitas(原牛津大学教授)在KHIPU2019上做了关于强化学习(RL)的教程,102页ppt。涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法,并介绍了RL的应用。