GaRAGe

github2025-06-10 更新2025-06-12 收录

下载链接：

https://github.com/amazon-science/GaRAGe

下载链接

链接失效反馈

官方服务：

资源简介：

GaRAGe是一个大型RAG基准数据集，包含人工整理的长篇答案和每个基础段落的注释，用于细粒度评估LLM在生成RAG答案时是否能识别相关基础。该基准包含2366个不同复杂性、动态性和主题的问题，并包括超过35K个从私有文档集和Web检索的注释段落，以反映真实世界的RAG用例。

GaRAGe is a large-scale RAG benchmark dataset that includes manually curated long answers and annotations for each foundational segment, designed for fine-grained evaluation of LLMs in their ability to identify relevant foundational segments when generating RAG answers. The benchmark encompasses 2366 questions of varying complexity, dynamics, and themes, and includes over 35K annotated segments retrieved from private document collections and the Web to reflect real-world RAG use cases.

创建时间：

2025-06-04

原始信息汇总

GaRAGe 数据集概述

数据集简介

名称: GaRAGe (A Benchmark with Grounding Annotations for RAG Evaluation)
论文: GaRAGe: A Benchmark with Grounding Annotations for RAG Evaluation (ACL 2025 Findings)
目的: 用于评估LLMs在生成RAG答案时识别相关基础信息的能力
规模: 包含2366个问题，超过35K标注段落

数据特点

问题多样性: 涵盖不同复杂度、动态性和主题
数据来源: 从私有文档集和网页检索的段落
标注内容: 每个基础段落的详细标注
应用场景: 评估LLMs识别必要信息或提供回避回答的能力

数据格式

JSONL格式，每个条目包含以下字段：

基本信息

sample_id: 唯一标识符
question_date: 问题时间戳
grounding: 基础段落列表（含文本、引用标记、时效性、日期和来源）
question: 问题文本

问题属性

question_valid: 问题是否有效
question_false_premise: 是否错误前提
question_seeking: 是否信息寻求
question_sensitive: 是否时间敏感
question_type: 时间敏感类型（Slow-Changing/Fast-Changing）
question_complexity: 复杂度分类
question_category: 领域分类（25个领域）
question_popularity: 主题流行度（Head/Torso/Tail）

证据标注

evidence_relevant: 段落相关性标签（YES/NO）
evidence_correct: 段落正确性标签（ANSWER-THE-QUESTION/RELATED-INFORMATION/UNKNOWN）

答案信息

answer_generate: 人工编写的答案
answer_related_info: 含附加相关信息的修订版答案
answer_validate: 答案是否经过验证
evidence_cited: 答案中引用的段落标记

其他信息

comments: 附加注释
question_tag: 问题生成来源（web/enterprise）
topic_tag: 主题来源（web/enterprise）

使用信息

许可证: CC-BY-NC-4.0
联系方式: Ionut-Teodor Sorodoc

搜集汇总

数据集介绍

构建方式

在信息检索与生成领域，GaRAGe数据集通过严谨的人工标注流程构建而成。研究团队精心设计了2366个涵盖不同复杂度、时效性和主题多样性的问题，并基于真实场景从私有文档集和互联网中检索超过3.5万条标注段落。每个数据点包含22个结构化字段，通过多维度标注体系记录问题的语义特征、证据相关性判断以及人工撰写的标准答案，其中证据标注采用三重判断机制（相关性/准确性/引用情况）以确保数据质量。

特点

该数据集最显著的特点是实现了检索增强生成（RAG）任务的细粒度评估能力。通过标注每个检索段落的精确引用状态和相关性标签，支持对模型引用行为的微观分析。问题集覆盖25个专业领域和7种复杂度类型，特别设计了包含时间敏感性、错误前提等现实场景的挑战性问题。人工撰写的长文本答案包含基础版本和扩展版本，为生成质量评估提供了多维参照标准。

使用方法

研究者可通过解析标准化的JSONL格式文件获取完整数据，每个条目包含问题元数据、检索证据集和参考答案三大部分。评估时需重点关注evidence_relevant和evidence_cited字段的匹配度，以此衡量模型的选择性引用能力。对于生成质量评估，建议同时参考answer_generate和answer_related_info两个答案版本，前者检验核心问题回答能力，后者评估信息扩展的恰当性。数据集的问题分类标签体系可用于构建领域特定的子测试集。

背景与挑战

背景概述

GaRAGe数据集由Ionut-Teodor Sorodoc等研究人员于2025年提出，旨在为检索增强生成（RAG）系统提供细粒度评估基准。该数据集收录了2366个涵盖不同复杂度、动态性和主题的多样化问题，并标注了超过3.5万条来自私有文档集和互联网的检索段落。通过人工标注的长篇答案及每个段落的来源标注，该数据集能够精确评估大语言模型在生成答案时识别相关依据的能力，以及在信息不足时提供回避性回答的表现。作为ACL 2025 Findings的成果，GaRAGe填补了RAG系统评估中缺乏细粒度标注数据的空白，为提升模型的可解释性和可靠性提供了重要研究基础。

当前挑战

GaRAGe数据集面临的核心挑战体现在两个方面：在领域问题层面，RAG系统需要解决信息检索与生成答案间的复杂对齐问题，包括准确识别相关段落、过滤噪声信息以及处理动态变化的内容。数据集构建过程中，研究人员需应对大规模多源数据标注的复杂性，包括跨领域问题的分类、段落相关性判定的一致性维护，以及时间敏感性问题的时间戳标注。特别值得注意的是，人工标注长篇答案时需平衡答案的完整性与依据引用的精确性，这对标注人员的专业素养提出了较高要求。

常用场景

经典使用场景

在检索增强生成（RAG）系统的研究中，GaRAGe数据集被广泛用于评估大型语言模型（LLM）在生成答案时识别相关背景信息的能力。通过提供2366个多样化问题及超过35K条标注的检索段落，该数据集能够模拟真实场景下的信息检索与答案生成过程，尤其适用于测试模型在复杂、动态或多领域问题中的表现。

实际应用

在实际应用中，GaRAGe数据集可用于优化智能客服、医疗咨询等领域的RAG系统。例如，在医疗场景中，模型需从海量文献中提取精准信息回答患者问题，同时避免引用过时或无关内容。数据集中标注的段落时效性、敏感性和领域分类（如Health、Finance）为这类垂直应用提供了针对性测试依据。

衍生相关工作

围绕GaRAGe数据集，已衍生出多项经典研究，包括基于其标注的段落相关性开发新型注意力机制、改进RAG系统的抗干扰能力，以及探索多跳推理中的信息聚合策略。部分工作进一步扩展了数据集的标注维度，如引入对抗性段落以测试模型鲁棒性，或结合时间敏感性分析动态信息的处理效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集