批量PPO 该项目为强化学习提供了优化的基础架构。 它将扩展到多个并行环境,并允许在TensorFlow中实现代理并执行批量计算。 首先,我们提供BatchPPO,这是的优化实现。 如果您在研究中使用该项目的代码,请引用: @article { hafner2017agents , title = { TensorFlow Agents: Efficient Batched Reinforcement Learning in TensorFlow } , author = { Hafner, Danijar and Davidson, James and Vanhoucke, V