多智能体系统因其在工程、社会科学和自然科学等多学科领域具有潜在、广泛的应用性,在过去的 20 年里引起了研究者的广泛关注。实现多智能体系统的一致性通常需要求解相关矩阵方程离线设计控制协议,这要求系统模型精确已知。然而,实际上多智能体系统具有大规模尺度、非线性耦合性特征,并且环境动态变化,使得系统精确建模非常困难,这给模型依赖的多智能体一致性控制协议设计带来了挑战。强化学习技术因其可以利用沿系统轨迹的测量数据实时学习控制问题的最优解,被广泛用于解决复杂系统最优控制和决策问题。综述了利用强化学习技术,采用数据驱动方式实时在线求解多智能体系统最优一致性控制问题的现有理论和方法,分别从连续和离散、同构和异构、抗干扰的鲁棒性等多个方面介绍了数据驱动的强化学习技术在多智能体系统最优一致性控制问题中的应用。最后讨论了基于数据驱动的多智能体系统最优一致性问题的未来研究方向。