深度RL 用于开发深度强化学习算法的最小pytorch框架。 特征 简单灵活的重放缓冲区 包装程序可驱动健身房环境并存储转换 支持策略内和策略外 在代理程序在环境上运行期间可视化统计信息 可扩展的重放缓冲区,使用健身房类型的接口支持数据丰富 所有核心功能都在一个文件中,只需将其拖放到您的项目中 重播缓冲区 重播缓冲区作为健身包装器实现 import gym import buffer as bf env = gym . make ( 'CartPole-v1' ) env , replay_buffer = bf . wrap ( env , plot = True , plot_blocksize = 8 ) 使用生成器一次一步地执行环境 import driver for transition in driver . step_environment ( env , policy ):