论文研究 量子神经网络的分布强化学习
传统的强化学习(RL)使用回报(也称为累积随机奖励的期望值)来训练代理学习最佳策略。 但是,最近的研究表明,学习学习收益的分布要比学习其预期价值具有不同的优势,如在不同的RL任务中所见。 从使用传统RL的收益期望到分配RL收益分配的转变,为RL的动力学提供了新见解。 本文基于我们最近的研究RL量子方法的工作。 我们的工作使用量子神经网络实现了分位数回归(QR)分布Q学习。 该量子网络在具有不同分位数的网格世界环境中进行了评估,说明了其对算法学习的详细影响。 还将其与马尔可夫决策过程(MDP)链中的标准量子Q学习进行了比较,这表明量子QR分布Q学习比标准量子Q学习可以更有效地探索环境。 RL中的
暂无评论