rubik:学习如何使用强化学习来解决魔方 源码
魔方 学习如何使用强化学习来解决魔方 状态 模型正在学习一些东西。 我尝试调整模型的结构,但无法达到低于18的损失,这似乎很高。 仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。 下一步: 在get_td_value_examples和贪婪求解器中批量调用模型。 实施A *。 进一步调查模型的行为: 比损失多的指标(例如平均L1误差) 通过标签对度量进行切片:我们是否更擅长将立方体距已解决状态更近或更远? 以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。 实现既有价值头又有政策头的模型 实施MCTS。 参考 Agostinelli,F.,McAleer,
文件列表
rubik-master.zip
(预估有个15文件)
rubik-master
util.py
8KB
benchmarks.py
4KB
eval.ipynb
78KB
.pylintrc
64B
cube.py
18KB
Pipfile.lock
52KB
LICENSE
34KB
README.md
2KB
Pipfile
279B
暂无评论