强化学习中的二次MLP 我们随附的论文“用于无模型强化学习的二次方参与者网络”的源代码和数据。 具有Quadratic-MLP(Q-MLP)作为参与者策略网络的TD3和SAC算法。 如果您使用我们的代码或数据,请引用本文。 要求 TD3和SAC在连续控制任务中进行了测试。 使用Pytorch 1.7.1 + cu110和Python 3.8.7训练Neural Netorks。 用法 要使用Q-MLP actor策略运行实验,请分别在SAC和TD3文件夹中运行以下Shell脚本。 ./run_Q_td3_nohup.sh ./run_Q_sac_nohup.sh 要运行基线实验,请分别在SAC和TD3文件夹中运行以下Shell脚本。 ./run_td3_nohup.sh ./run_sac_nohup.sh 致谢 TD3和SAC代码紧密基于 。 TD3代码基于 。 SAC代码基于和