RAGCap-Bench

Name: RAGCap-Bench
Creator: 新加坡国立大学,中国香港中文大学深圳分校
Published: 2025-10-15 12:13:00
License: 暂无描述

arXiv2025-10-15 更新2025-11-05 收录

下载链接：

https://github.com/jingru-lin/RAGCap-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RAGCap-Bench是一个面向能力的基准，用于细粒度评估代理式RAG工作流程中的中间任务。数据集包含255个精心策划的问题，涵盖了规划、证据提取、基于事实的推理和噪声鲁棒性等四个任务类型。数据集的构建过程包括从多个开源深度研究基准中提取查询，并利用代理式RAG系统处理查询和收集执行日志，然后从日志中提取相关中间信息，用于生成针对特定任务的MCQs。该数据集旨在评估LLMs在代理式RAG系统中的能力，并帮助改进模型性能。

提供机构：

新加坡国立大学,中国香港中文大学深圳分校

创建时间：

2025-10-15

搜集汇总

数据集介绍

构建方式

RAGCap-Bench的构建采用多源数据融合与系统化分析策略，从多个开源深度研究基准中筛选255个查询，涵盖娱乐、体育、艺术、技术和医学等多样化领域。通过运行多种智能RAG系统处理查询并收集执行日志，从中提取关键中间信息，采用两种主要生成策略——直接生成与错误引导生成，构建任务导向的多项选择题。为确保数据质量，实施难度筛选与格式过滤机制，并由配备深度研究工具的人类专家进行最终标注，形成具有高可靠性的评估基准。

特点

该数据集以细粒度评估为核心特征，针对智能RAG系统中的四个关键任务类型——规划、证据提取、基础推理和噪声鲁棒性进行专门设计。其独特之处在于采用多项选择题形式，通过错误分类法构建具有挑战性的评估问题，能够精准识别模型在中间任务执行中的常见错误。数据集支持中英双语评估，覆盖开放网络环境中的真实多样化信息，且评估结果与端到端性能呈现显著相关性，为模型能力诊断提供有效依据。

使用方法

使用该数据集时，研究者可通过标准化的多项选择题格式对大型语言模型进行能力评估。评估过程支持两种提示策略：基础提示仅提供查询和简单指令，信息提示则额外包含错误示例以增强模型表现。采用精确匹配和实例级宏F1分数作为核心评估指标，分别计算四个任务类别的得分并取平均值得到总体性能。该基准特别适用于分析模型在动态网络环境下的中间推理能力，为改进智能RAG系统的组件级性能提供量化依据。

背景与挑战

背景概述

RAGCap-Bench由新加坡国立大学与香港中文大学（深圳）联合研究团队于2025年提出，旨在解决智能检索增强生成系统中大语言模型中间过程评估的空白。该数据集聚焦于代理式RAG系统的核心能力评估，通过构建包含规划、证据提取、推理验证与噪声鲁棒性四大任务的细粒度评测框架，突破了传统端到端问答评估的局限性。其创新性在于首次系统化定义并量化了智能体在动态网络环境中的中间推理能力，为提升复杂信息处理系统的可靠性提供了重要基准。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决多跳推理中错误传播、动态网络信息噪声干扰以及隐式语义关联识别等核心难题；在构建过程中，需克服开放式网络数据质量参差不齐的筛选困难，设计能够准确反映典型错误的评估题目，并确保人工标注与自动化生成的平衡。具体而言，证据提取任务需应对浅层关键词匹配与深层语义理解的矛盾，推理任务需处理幻觉支持与信息矛盾的辨识，而噪声鲁棒性任务则要求模型在低质量信息环境中保持判断力。

常用场景

经典使用场景

在智能检索增强生成系统领域，RAGCap-Bench作为首个面向中间任务能力的评估基准，主要用于系统化评估智能体在复杂查询处理过程中的核心能力表现。该数据集通过多轮规划、检索与推理的交互式评估框架，深入剖析智能体在开放网络环境下的动态信息处理能力，为研究社区提供了精细化的性能诊断工具。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于错误分析的提示工程优化方法、慢思考模型与快思考模型的协同架构设计，以及LLM作为评估者的新型验证范式。相关研究进一步拓展到多模态检索增强生成系统的能力评估框架，为构建更可靠的开放式问答系统奠定了理论基础。

数据集最近研究