qqkindness81257的所有下载-用户-卡了网

我们研究了一类一般的情境强盗，其中每个情境动作对都与一个原始特征向量相关联，但奖励生成功能未知。我们提出了一种新颖的学习算法，该算法使用深度ReLU神经网络的最后一个隐藏层（深度表示学习）来转换原始特征向量，并使用上置信界（UCB）方法在最后一个线性层中进行探索（浅层探索）。.. 我们证明，在标准