JAX-RL 各种深度强化学习算法的JAX实现。 使用的主要库: JAX-主要框架 ku句-神经网络 Optax-基于梯度的优化 算法: | 近端策略优化(PPO)| 1 | | 深度Q网络(DQN)| 1 | | 双深度Q网络(DDQN)| 1 | | 深度递归Q网络(DRQN)| 1 | | 深度确定性策略梯度(DDPG)| 1 | 政策: psi贪婪 玻尔兹曼 去做: 每种算法的完整测试 其他基于PPO的算法? 优先体验重播 多代理DQN和DDPG