Ta上传的资源 (0)

我们研究了一类一般的情境强盗,其中每个情境动作对都与一个原始特征向量相关联,但奖励生成功能未知。我们提出了一种新颖的学习算法,该算法使用深度ReLU神经网络的最后一个隐藏层(深度表示学习)来转换原始特征向量,并使用上置信界(UCB)方法在最后一个线性层中进行探索(浅层探索) 。.. 我们证明,在标准