Web搜索引擎通常设计为包含多个搜索结果页面,并且使用临时查询进行探索性搜索的搜索用户可能会访问多个result.pages。 此类查询的网页排名应考虑原始查询以外的其他信息,例如,用户单击以前的结果页面。 利用这种信息的现有方法通常涉及相关性反馈,该相关性信息使用反馈信息来探索用户的意图。 然而,由于反馈机制的局限性,难以将现有的相关反馈技术应用于最新的学习以对模型进行排名。 在本文中,我们提出了一种新颖的用于多页面搜索的学习排名模型,该模型可以自然地利用用户的反馈来改善下一个结果页面的排名。 称为MDP-MPS的模型将多页搜索中的文档排名正式化为马尔可夫决策过程(MDP),其中搜索引擎对应于用于在结果页面中构建文档排名的代理,以及该用户对应于用于判断排名和提供奖励的环境。 采用REINFORCE。的策略梯度算法学习模型参数。 在OHSUMED数据集上的实验结果表明,我们的方法优于ListNet的传统相关性排名模型的基准和Rocchio的相关性反馈方法。