为使多智能体系统更能适应复杂环境,将分层方法引入强化学习。把两层Q-Learning强化学习算法用于4个智能体协作推动圆盘物体,在未知环境中实现路径规划的计算机模拟中。仿真结果说明该方法的有效性和可行性。