天堂中的匹配:有监督查询的工具包和大规模数据集 随着查询重新编制任务的重要性日益提高,各种研究人员已经提供了各种不同的策略来收集真实的查询翻译对。 我们工作的目的是提出一种用于生成大规模查询对集合的标准方法,该方法可用于训练监督查询重新编制技术。 为了生成真实的查询表述数据集,我们提出了一个工具包,首先训练一个变压器架构,并学习每个查询的相关性判断文档与查询本身之间的关联。 然后,训练有素的变压器被利用来从与每个查询相关联的相关判断文档的集合中生成查询。 然后根据生成的查询的有效性(例如map或mrr)对生成的查询进行评估,然后选择最有效的查询与原始查询配对。 数据集:详细信息和评估 基于MSMARCO训练集,我们发布了MSMarco的三个数据集,即钻石,白金和黄金数据集。 可以在此表中找到详细信息和相应的查询链接。 使用检索查询。 所有查询都有相关的判断文档,可以在上找到。 查询数量