使用行为克隆玩Minecraft,2020年版 该存储库仅包含NoActionWasted团队对的最终排名,模仿学习,排名第四。 团队成员: , 和 。 核心成分: 写在PyTorch中。 在比赛中,动作被混淆成连续的向量。 我们在人类数据集上使用了k均值聚类来创建具有代表性的动作,效果非常好(感谢)。 连续的动作矢量被映射到最接近的质心,并且所有学习都是在这些离散的动作上完成的。 行为克隆(即训练网络以预测人类采取的行动)。 网络模型:具有LSTM层的小型ResNet(有关类似架构,请参见) 手动清理ObtainDiamond数据集 我们还通过手动浏览ObtainDiamond数据集并根据游戏质量对游戏进行分类来进行实验。 我们没有在比赛中使用这些数据,只是为了更好地了解数据的质量。 该数据包含在MineRL-ObtainDiamond-labels.csv ,也可以在。