Quadratic_MLPs_in_RL:具有Quadratic MLP(Q MLP)作为参与者策略网络的TD3和SAC算法 源码
强化学习中的二次MLP 我们随附的论文“用于无模型强化学习的二次方参与者网络”的源代码和数据。 具有Quadratic-MLP(Q-MLP)作为参与者策略网络的TD3和SAC算法。 如果您使用我们的代码或数据,请引用本文。 要求 TD3和SAC在连续控制任务中进行了测试。 使用Pytorch 1.7.1 + cu110和Python 3.8.7训练Neural Netorks。 用法 要使用Q-MLP actor策略运行实验,请分别在SAC和TD3文件夹中运行以下Shell脚本。 ./run_Q_td3_nohup.sh ./run_Q_sac_nohup.sh 要运行基线实验,请分别在SAC和TD3文件夹中运行以下Shell脚本。 ./run_td3_nohup.sh ./run_sac_nohup.sh 致谢 TD3和SAC代码紧密基于 。 TD3代码基于 。 SAC代码基于和
文件列表
Quadratic_MLPs_in_RL-main.zip
(预估有个16文件)
Quadratic_MLPs_in_RL-main
SAC
Readme_SAC.md
98B
Q_SAC.py
6KB
utils.py
3KB
SAC.py
6KB
model.py
6KB
run_sac_nohup.sh
2KB
run_Q_sac_nohup.sh
2KB
main_sac.py
9KB
暂无评论