近年来,将量子计算技术应用于机器学习引起了广泛的关注,量子机器学习已成为研究的热点。 机器学习分为三大类:监督学习,无监督学习和强化学习(RL)。 但是,与其他两个领域相比,量子RL取得的进展最少。 在这项研究中,我们使用量子神经网络实现了著名的RL算法Q学习,并在网格世界环境中对其进行了评估。 RL通过与环境的互动来学习,目的是发现一种最大化预期累积奖励的策略。 RL中的问题因其学习的连续性,潜在的长期奖励信号延迟以及状态空间和动作空间的大小,而给研究带来了独特的挑战。 这项研究扩展了我们先前使用量子神经网络解决情境强盗问题的工作,在该行为中,奖励信号在每次操作后立即发出。