GaRAGe
收藏arXiv2025-06-09 更新2025-06-11 收录
下载链接:
https://github.com/amazon-science/GaRAGe
下载链接
链接失效反馈官方服务:
资源简介:
GaRAGe是一个大型的RAG基准测试数据集,包含由人类编辑的长篇答案和每个 grounding 段落的注释,这使得可以细致地评估LLM在生成RAG答案时能否识别出相关的 grounding。该数据集包含2366个具有多样复杂性、动态性和主题的问题,并包括从私人文档集和Web上检索的超过35K个注释段落,以反映现实世界的RAG使用案例。这使得它成为一个理想的测试平台,用于评估LLM识别仅必要的相关信息来编写答案的能力,或者在没有足够信息时提供回避性回答的能力。
GaRAGe is a large-scale RAG benchmark dataset containing human-edited long-form answers and annotations for each grounding passage, which enables fine-grained evaluation of LLMs' ability to identify relevant grounding content when generating RAG-based answers. This dataset encompasses 2,366 questions with diverse complexities, dynamics and topics, and includes over 35,000 annotated passages retrieved from private document collections and the Web to reflect real-world RAG usage scenarios. This makes it an ideal testbed for evaluating LLMs' capabilities to identify only the necessary relevant information to compose answers, or to provide evasive responses when sufficient information is unavailable.
提供机构:
Amazon AGI
创建时间:
2025-06-09
原始信息汇总
GaRAGe数据集概述
数据集简介
- 名称: GaRAGe (A Benchmark with Grounding Annotations for RAG Evaluation)
- 论文: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation (ACL 2025 Findings)
- 目的: 评估LLMs在生成RAG答案时识别相关基础信息的能力
- 规模: 包含2366个问题,超过35K标注段落
数据特点
- 问题多样性: 涵盖不同复杂度、动态性和主题
- 数据来源: 从私有文档集和网页检索的段落
- 标注内容: 每个基础段落的详细标注
数据字段说明
- 标识信息: sample_id, question_date
- 问题属性:
- question, question_valid, question_false_premise
- question_seeking, question_sensitive, question_type
- question_complexity, question_category, question_popularity
- 基础段落: grounding (包含文本、引用标记、段落年龄、日期和提供者)
- 证据评估:
- evidence_relevant, evidence_correct
- evidence_cited
- 答案信息:
- answer_generate, answer_related_info
- answer_validate
- 其他信息: comments, question_tag, topic_tag
使用信息
- 数据格式: JSONL (GaRAGe_benchmark.jsonl)
- 许可证: CC-BY-NC-4.0
- 联系方式: Ionut-Teodor Sorodoc
搜集汇总
数据集介绍

构建方式
GaRAGe数据集的构建采用了多阶段框架,首先通过复杂问题生成流程,包括信息搜索计划生成、网络资源检索、问题生成以及过滤和精炼步骤。随后,针对每个问题,从私有文档集和网络检索相关段落,形成多样化的基础信息。最后,由专业标注人员对每个样本进行详细标注,包括问题分类、段落相关性和长格式答案撰写。
特点
GaRAGe数据集包含2366个多样化复杂性问题,涵盖不同时间敏感性、复杂度和主题,并附有超过35K标注段落。其独特之处在于提供了细粒度的段落相关性标注,能够精确评估模型在生成答案时是否严格基于相关段落。此外,数据集还包含需要模型回避回答的问题子集,以评估模型的回避能力。
使用方法
GaRAGe数据集可用于评估检索增强生成(RAG)系统中大型语言模型的多项核心能力。研究者可通过数据集提供的标注信息,计算相关性感知事实性分数(RAF)来评估模型答案的准确性和相关性。此外,数据集支持对模型在时间敏感问题和私有知识库问题上的表现进行深入分析,为改进RAG系统提供重要参考。
背景与挑战
背景概述
GaRAGe数据集由亚马逊AGI团队于2025年6月提出,旨在为检索增强生成(RAG)系统提供细粒度评估基准。该数据集包含2366个涵盖不同复杂度、时效性和主题的问题,以及超过35K条从私有文档和网络检索的人工标注段落。其核心研究问题是评估大型语言模型(LLM)在生成答案时准确识别相关依据的能力,以及在信息不足时恰当回避回答的表现。作为首个融合人工标注依据相关性及长答案生成评估的基准,GaRAGe通过定义'相关性感知事实性评分'(RAF)等创新指标,显著推进了RAG系统在真实场景中的可靠性研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决LLMs普遍存在的过度概括倾向(最高RAF评分仅60%)和回避回答能力不足(真实回避率最高31%)的核心难题;在构建过程中,需克服多源依据混合标注的复杂性,包括处理私有知识库稀疏数据(相关依据占比仅47.8%)、时效性问题的动态标注(17.5%快速变化问题),以及保持长答案中人工标注引用(平均5个引用/答案)与模型生成引用的精确对齐(最高F1评分58.9%)。
常用场景
经典使用场景
GaRAGe数据集在检索增强生成(RAG)系统的评估中扮演了关键角色,特别是在需要模型基于多源信息生成详细答案的场景中。该数据集通过提供人工标注的长篇答案和每个基础段落的详细注释,使得研究人员能够精确评估大型语言模型(LLM)在生成答案时是否能够准确识别和利用相关的基础信息。例如,在处理动态变化或复杂主题的问题时,GaRAGe能够帮助验证模型是否能够严格基于标注的相关段落生成答案,或在信息不足时适当回避回答。
解决学术问题
GaRAGe数据集解决了RAG系统中几个核心的学术研究问题,包括模型在生成答案时对基础信息的准确引用能力、在信息不足时的回避回答能力,以及对时间敏感问题的处理能力。通过引入“相关性感知事实性评分”(RAF),该数据集提供了一种新的评估标准,能够量化模型在生成答案时对相关信息的依赖程度,从而帮助研究者识别和改善模型在信息检索和答案生成中的不足。
衍生相关工作
GaRAGe数据集的发布促进了多项相关研究的发展,特别是在RAG系统的评估和优化领域。例如,基于GaRAGe的标注数据,研究者开发了新的模型训练方法,如多任务学习框架,以同时提升模型的信息检索和答案生成能力。此外,该数据集还激发了关于如何更有效处理时间敏感问题和私有知识库检索的新研究,推动了RAG技术的前沿发展。
以上内容由遇见数据集搜集并总结生成



