Q leraning是一种常用的强化学习方法它的决策主体Agent在与环境的交互中不断更新自己对于环境的认知以此来达到更好的依据环境决策的目的.在一个训练训练完成的模型模型火种通过构建好的状态动作价值评估的映射表Agent可以在某一特定状态下计算出当前价值最高的行动并不断采取最高的行动链最终达到终点.在构建过程中Agent一边探索一边动态更新映射表Q table以期最终达到收敛或者近似收敛的目的.