Numerical_TicTacToe_Agent_using_Reinforcement_Learning:建立一个学习弹奏数字井字游戏的RL(强化学习)代理
数值_井字棋_代理_使用_强化_学习 建立一个学习弹奏数字井字游戏的RL(强化学习)代理。 代理通过Q-Learning学习游戏。 游戏( 是最受欢迎和持久的游戏之一。 由于它的熟悉性,该游戏通常被用作数学决策过程的入门示例。 它的简洁性使其成为一个完美的游戏,可以说明思考前瞻和学习每个决策的结果所带来的收益。 井字游戏有多种变体。 最经典的是X和O,每个玩家都希望将他们的三个标记放在3x3网格的水平,垂直或对角线行中。 该游戏的另一个流行变体是数字井字游戏。 使用数字1到9代替X和O。 在3x3网格中,数字1到9被填充,每个单元格中都有一个数字。 第一个玩家使用奇数游戏,第二个玩家使用偶数游戏,即玩家1只能在单元格中输入一个奇数,而玩家2可以在其余单元格中输入一个偶数。 每个数字在整个网格中只能使用一次。 在一行中放下15分的玩家(列,行或对角线)将赢得比赛。 建议您在玩游戏以更
文件列表
Numerical_TicTacToe_Agent_using_Reinforcement_Learning-chai_main.zip
(预估有个6文件)
Numerical_TicTacToe_Agent_using_Reinforcement_Learning-chai_main
README.md
6KB
TCGame_Env.py
5KB
TicTacToe_Agent.ipynb
761KB
States_tracked.pkl
56KB
Sample_episode_img.png
14KB
Policy.zip
23.54MB
暂无评论