魔方 学习如何使用强化学习来解决魔方 状态 模型正在学习一些东西。 我尝试调整模型的结构,但无法达到低于18的损失,这似乎很高。 仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。 下一步: 在get_td_value_examples和贪婪求解器中批量调用模型。 实施A *。 进一步调查模型的行为: 比损失多的指标(例如平均L1误差) 通过标签对度量进行切片:我们是否更擅长将立方体距已解决状态更近或更远? 以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。 实现既有价值头又有政策头的模型 实施MCTS。 参考 Agostinelli,F.,McAleer,