用Q学习和BP算法解决交通信号控制问题的过程如下: 步骤1:在决策时间点,观察当前的交通状态s; 步骤2:通过Q值存储网络计算每种行为对应的Q值; 步骤3:管理Agent根据一定的策略选择行为a,并分别交由各个路口 Agent执行; 步骤4:执行行为a后,收到回报r; 步骤5:观察新的交通状态s',