针对强化学习收敛速度慢的问题,提出可在线更新的信息强度引导的启发式Q学习算法以加快强化学习算法的收敛速度。该算法在启发式强化学习算法的基础上引入依据每次训练回报情况进行在线更新的信息强度,通过结合强弱程度不同的动作信息强度更新的启发函数和状态—动作值函数来确定策略,从而提高算法收敛速度。给出该算法并对其收敛性进行证明,同时针对不同参数设置和仿真环境进行路径规划的仿真对比实验,得到实验结果:信息强度引导的启发式Q学习算法在成功率、达到目标位置所需步数及所获回报上均优于Q学习和基本启发式Q学习算法。实验结果表明,该算法能更快地得到回报较高的策略且不会陷入局部收敛,因而该算法能够有效提高算法的收敛速