提升大模型事实准确性和上下文关联性数据集

jiangyuelong 3 0 zip 2025-01-03 13:01:04

Google DeepMind和Google Research联合创建了一个数据集，用于衡量和提升大型语言模型（LLMs）在事实准确性和上下文关联（grounding）方面的表现。该数据集包含1719个示例，涵盖金融、科技、零售、医疗和法律等多个领域。每个示例要求模型基于长达32000个token（约20000字）的文档生成详细的响应。数据集的每个示例由三个主要部分组成：系统指令（system_instruction）、用户请求（user_request）和长文档（context_document）。系统指令提供模型的整体指导，用户请求包含具体的问题，而长文档则包含回答问题所需的详细信息。此外，数据集还包括评估模型响应的评价提示。为了确保公正性，数据集分为“公共”和“私有”两部分。公共部分包含860个示例，已对外发布供研究人员使用。私有部分包含859个示例，专门用于排行榜评分，防止基准污染和作弊。评估模型响应的任务由三款领先的LLMs负责：Gemini 1.5Pro、GPT-4o和Claude 3.5Sonnet。

文件列表

提升大型语言模型（LLMs）在事实准确性和上下文关联（grounding）方面的表现数据集.zip (预估有个3文件)

examples.csv 18.84MB

LICENSE.txt 903B

evaluation_prompts.csv 13KB

用户评论

暂无评论

煤的挥发分测定准确性探讨

对影响煤的挥发分测定准确性的诸多因素进行分析及总结,指出电源电压、马弗炉保温性能、坩埚质量、煤样粒度、坩埚架放置位置、程控仪调整等均为影响准确测定煤挥发分的因素,建议使用设备前应进行仪器调试和短期频繁

21 2020-07-18
基于上下文的知识表示和推理

对人工智能很好的学习资料,描述了基于上下文的知识表示方法和推理过程。

17 2020-08-28
ChatGPT对话历史管理和上下文维护

ChatGPT技术通过高效的对话历史管理和上下文维护策略，确保对话的连贯性和相关性。该技术采用先进的自然语言处理算法，实时分析对话中的关键信息，并将其存储在一个动态上下文中。通过这种方式，ChatGP

4 2024-05-19
北京市地价和房价关联性的实证研究

北京市地价和房价关联性的实证研究，王逸智，，文章基于北京市2000-2009年商品房销售价格指数和土地交易价格指数，计量分析了北京市房价与地价之间的关系。实证分析的结果表明：在

15 2020-07-17
IO空间内存管理平台设备中断上下文与进程上下文

IO空间内存管理平台设备中断上下文与进程上下文

32 2019-01-12
论文研究基于角色和上下文的访问控制模型.pdf

目前的访问控制模型大多是从系统角度出发以保护资源，在权限控制时没有考虑上下文，如RBAC。随着普适计算时代的到来，要求大量设备互连并自由交互，不仅要注意资源的保护还要考虑程序执行的上下文。在以往研究的

39 2019-09-07
website IIIF网站上下文API和模型规范除外源码

规格 iiif.io网站的Markdown来源。有关IIIF规范,请参见: 。调试站点 bundle install 运行bundle exec rake dev来编译站点,并在上运行开发服务器。

6 2021-04-07
认知诊断测验的属性分类一致性和分类准确性指标

认知诊断测验的属性分类一致性和分类准确性指标,汪文义,宋丽红,分类一致性和分类准确性是衡量信效度的两个重要的考试质量评价指标。基于项目反应理论下分类一致性和分类准确性指标,提出认知诊

6 2020-08-14
contextual robustness上下文健壮性验证源代码Verification code source code

语境鲁棒性描述的图像分类神经网络的上下文相关验证的工具集。安装与设定先决条件 python 3.5.0 <= 3.8.7 cmake> = 3.12(用于编译Marabou)

5 2021-05-05
基于面板数据的接近性和相似性关联度模型

对于面板数据, 首先给出面板数据的空间投射方法, 将面板数据投射为空间的向量序列. 然后, 基于空间向量的夹角和距离分别构建相似性和接近性关联度模型. 具体方法为: 利用向量夹角构建面板数据的相似性关

4 2021-01-16

提升大模型事实准确性和上下文关联性数据集

文件列表

用户评论

推荐下载