李宏毅深度强化学习笔记 课程主页: 视频: 李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最佳奖励出发,直接引出政策梯度(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C,DDPG),紧接着介绍了一些Reward Shaping的方法(主要是好奇心,课程学习,分层学习) ,,最后介绍模仿学习(逆RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种值迭代的思路有悖论。文档中的注释以对幻灯片的批注为主,方便在阅读幻灯片时理解,代码以纯tensorflow实现,主要参考,修正部分代码以保持一致,已经加入理解的注释。 参考资料: 代码中的tensorlayer实现来自于 ,比起原生tensorflow更加简洁