本文介绍了一组基于值的量子强化学习算法,这些算法使用Grover算法更新策略,并以与每个可能动作相关的qubits的叠加形式存储该策略,并探索其参数。 这些算法可以分为两类,一类使用值函数(V(s)),另一类使用动作值函数(Q(s,a))。 发现新的基于(Q(s,a))的量子算法比基于V(s)的算法收敛更快,并且一般而言,发现量子算法的迭代次数少于经典算法的迭代次数,在此期间净收益更大。训练。 这是由于以下事实:(Q(s,a))算法比基于V(s)的算法更精确,这意味着更新可以更有效地合并到值函数中。 通过观察可以基于更高的学习率训练基于Q(s,a)的算法,也可以增强这种效果。 然后,通过添加多