强化学习 该存储库包括Sutton和Barto的强化学习书(Ed.2)算法的Python实现。 该书第二版的最新草稿可以在此找到。 在此存储库中,您还可以找到我一直在实施的练习书的解决方案。 结构体 夹 该存储库分为几个文件夹,每个文件夹对应一本书的一章。 通常,每个情节都与一组强化学习算法(例如,时差方法)有关。 此外,在所有章节目录中,都存在一个notebooks子文件夹。 此类文件是交互式Jupyter Notebook,用户可以在其中与OpenAI环境和可用算法进行交互。 档案 在主目录中找到的以下Python文件与该项目最相关: 包含用于强化学习任务的通用模型的实现。 这样的一个