基于Q0学习算法的迷宫问题的应用 迷宫的设计 设计宗旨尽量使每一个状态只有惟一的一个路径能够通过终点此外1处做为起点34处做为终点 状态及相关矩阵的设定及初始化 可以看出此矩阵为一个10*10的矩阵根据矩阵开闭的情况根据文献[1]可得此迷宫的矩阵数学模型为 其中x表示为迷宫墙即不可通过的部分1为入口34为出口 设立奖励值除了到达最终的终点之外奖励值均设置为0初始状态下的Q值各处都为零这里特殊说明Q