Google DeepMind和Google Research联合创建了一个数据集,用于衡量和提升大型语言模型(LLMs)在事实准确性和上下文关联(grounding)方面的表现。该数据集包含1719个示例,涵盖金融、科技、零售、医疗和法律等多个领域。每个示例要求模型基于长达32000个token(约20000字)的文档生成详细的响应。数据集的每个示例由三个主要部分组成:系统指令(system_instruction)、用户请求(user_request)和长文档(context_document)。系统指令提供模型的整体指导,用户请求包含具体的问题,而长文档则包含回答问题所需的详细信息。此外,数据集还包括评估模型响应的评价提示。为了确保公正性,数据集分为“公共”和“私有”两部分。公共部分包含860个示例,已对外发布供研究人员使用。私有部分包含859个示例,专门用于排行榜评分,防止基准污染和作弊。评估模型响应的任务由三款领先的LLMs负责:Gemini 1.5Pro、GPT-4o和Claude 3.5Sonnet。