said-rag-eval-benchmark
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/said-rag-eval-2026/said-rag-eval-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
SAID RAG评估基准(v1.1)是一个包含75个单元的基准测试,用于研究RAG(检索增强生成)管道评估输出的无监督度量可靠性过滤。该基准测试包含10个由LLM(大型语言模型)评判的指标,旨在检测表面混淆因素。数据集包含来自5个源数据集(HotpotQA、MS MARCO、WikiQA、PubMedQA、FinQA)的100个问题样本,使用5种生成器(Claude-Sonnet-4.6、GPT-5、Gemini-2.5-Pro、Llama-3.1-8B-Instruct、Qwen3-8B)和3种前沿评判模型(Claude-Sonnet-4.6、GPT-5、Gemini-2.5-Pro)生成的数据。每个单元包含32种管道配置,总计240,000个答案记录和2.4M个度量值。数据集适用于研究LLM评判中的系统性偏差、无监督度量聚合过滤的基准测试以及新RAG评估方法的压力测试。数据集不包含原始问题文本、真实答案或上下文文本,用户需从源数据集中获取这些信息并与之关联。
创建时间:
2026-05-05
原始信息汇总
SAID RAG Evaluation Benchmark (v1.1) 数据集详情
数据集概述
该数据集是一个包含 75 个单元格 的 RAG 流水线评估基准,拥有 10 个由 LLM 评分的指标,专为研究 无监督指标可靠性过滤 而设计,用于 LLM 评判的 RAG 评估。该数据集是 NeurIPS 2026 评估与数据集轨道投稿的配套成果。
数据集规模
- 总样本量: 100K < n < 1M
- 构成:
- 5 个数据集: HotpotQA、MS MARCO、WikiQA、PubMedQA、FinQA(每个数据集采样 100 个问题,种子为 42)
- 5 个生成器: Claude-Sonnet-4.6、GPT-5、Gemini-2.5-Pro、Llama-3.1-8B-Instruct、Qwen3-8B
- 3 个前沿评判模型: Claude-Sonnet-4.6、GPT-5、Gemini-2.5-Pro
- 每个单元格 32 条流水线: 5 个检索器 × 多种深度 × 4 种提示风格,外加 2 条对抗性打乱检索流水线
- 总计: 240,000 条答案记录,在 240 万个指标值 上评分
任务与标签
- 任务类别: 问答、文本检索
- 语言: 英语
- 标签: RAG、检索增强生成、评估、基准、以 LLM 作为评判
数据内容与版本
v1.1(当前版本)
| 文件/文件夹 | 大小 | 内容 |
|---|---|---|
metric_scores_compact.json |
~19 MB | 75 个单元格 × 32 条流水线 × ~100 个样本的所有指标分数 + 答案长度 |
human_eval_annotations.xlsx |
~2 MB | 三位标注者 × 720 个条目(Krippendorffs α = 0.980) |
raw/stage_a/ |
~5 MB | 25 个经过编辑的 Stage A 文件(LLM 答案,无指标分数) |
raw/stage_b/ |
~20 MB | 75 个经过编辑的 Stage B 文件(LLM 答案 + 每个评判模型的指标分数) |
v1.0(先前版本)
与 v1.1 相同,但缺少 raw/ 目录。
数据模式
metric_scores_compact.json 结构
python { "metadata": { "n_cells": 75, "datasets": [...], "generators": [...], "judges": [...], "metric_names": [...] }, "cells": [ { "dataset": "HotpotQA", "generator": "...", "judge": "...", "n_answers_total": 3200, "pipelines": { "bm25_top5_direct": { "n_samples": 100, "answer_length_stats": {...}, "answer_lengths": [...], "metric_scores": { "faithfulness": [...], "gt_judge": [...] } } } } ] }
raw/ 目录内容
每个记录包含:
sample_id: 源数据集的稳定标识符pipeline,generator,retriever,chunk_spec,prompt_style: 流水线元数据answer: LLM 生成的答案failed: API 调用是否失败metric_scores(仅 Stage B): 10 个 LLM 评判指标 + gt_judge 预言judge(仅 Stage B): 产生指标分数的前沿 LLM
每个记录不包含:
- ❌
question(原始数据集文本) - ❌
ground_truth/ 黄金答案(原始数据集文本) - ❌
contexts_text(检索到的段落) - ❌
gold_titles/context_titles(段落标题)
10 个 LLM 评判指标
- faithfulness(忠实度)
- hallucination_free(无幻觉)
- answer_relevancy(答案相关性)
- context_precision(上下文精确度)
- context_utilization(上下文利用率)
- completeness(完整性)
- conciseness(简洁性)
- coherence(连贯性)
- specificity(特异性)
- citation_quality(引用质量)
- gt_judge(黄金评判,作为预言)
许可信息
- 基准产物(紧凑指标分数、原始 LLM 答案、指标分数、人工评分): CC BY 4.0
- 原始问题/黄金答案/上下文: 未重新分发,每个源数据集保留其原始许可
| 源数据集 | 许可 | 来源 |
|---|---|---|
| HotpotQA | CC BY-SA 4.0 | https://hotpotqa.github.io/ |
| MS MARCO | MS MARCO 非商业许可 | https://microsoft.github.io/msmarco/ |
| WikiQA | MS 研究许可 | https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/ |
| PubMedQA | MIT | https://pubmedqa.github.io/ |
| FinQA | MIT | https://finqasite.github.io/ |
预期用途与局限性
预期用途
- 研究 LLM 作为评判的评估中的系统性偏差
- 对无监督指标聚合过滤器进行基准测试
- 压力测试新的 RAG 评估方法论
- 审计现有的 RAG 评估框架(RAGAS、ARES、RAGChecker、DeepEval)
超出范围的使用
- 在这些答案上训练新的评判模型
- 仅检索器评估(基准围绕流水线级评估构建)
- 不考虑已知偏差,将高 LLM 评判分数视为真实正确性
局限性
- 5 个仅限英语的问答数据集
- LLM 评判可能与黄金评判预言共享偏差(通过 18 个单元格的人工研究得到了缓解但未消除)
- 75 个单元格中有 14 个在 SAID 下略有退化(主要是拒绝率高的 GPT-5)
文档化的偏差
- 长度偏差:
conciseness与答案长度的平均 Kendall τ 为 −0.53;与拒绝模板相关 - 拒绝模板偏差: GPT-5 在对抗性流水线上产生约 30% 的简短拒绝
- 领域特定的表面偏好:
coherence和conciseness在不同数据集上跟踪风格
数据连接
每个记录的 sample_id 是源数据集的原生 ID。用户需直接从相应来源获取原始数据集,然后在 sample_id 上进行连接。
| 数据集 | sample_id 格式 | 获取方式 |
|---|---|---|
| HotpotQA | 24 字符十六进制(如 5ac1b8ee5542994d76dccedc) |
https://hotpotqa.github.io/ |
| MS MARCO | 数字查询 ID | https://microsoft.github.io/msmarco/ |
| WikiQA | Q#### |
https://www.microsoft.com/en-us/research/publication/wikiqa-a-challenge-dataset-for-open-domain-question-answering/ |
| PubMedQA | PubMed ID | https://pubmedqa.github.io/ |
| FinQA | FinQA 训练分割中的序列 ID | https://finqasite.github.io/ |
维护信息
- v1.0: 指标分数 + 人工评估
- v1.1(当前): + 原始编辑后的答案(Stage A + Stage B)
- 作者承诺在发表后至少三年内维护此产物
- 勘误将以补丁版本发布;实质性扩展将以次要版本发布
搜集汇总
数据集介绍

构建方式
SAID RAG Evaluation Benchmark的构建基于检索增强生成(RAG)管道的系统性评估需求,采用了多维度、多层次的实验设计。研究团队从五个开源的英文问答数据集(HotpotQA、MS MARCO、WikiQA、PubMedQA、FinQA)中各抽取100个样本,结合五种生成器(如Claude-Sonnet-4.6、GPT-5等)与三种前沿大语言模型作为评判者,构建了75个实验单元。每个单元包含32条不同的RAG管道,涵盖五种检索器、多种检索深度、四种提示风格及两种对抗性打乱检索配置。所有管道生成的24万条答案记录均由10种大模型评判指标及一个黄金评判器进行评分,形成了包含240万个指标值的数据矩阵,同时辅以人类标注的720个评估项目,确保了评估的全面性和可靠性。
特点
该数据集的核心特点在于其系统性地揭示了LLM作为评判者的内在偏差,为RAG评估可靠性研究提供了独特视角。数据集中明确记录了长度偏差(简洁度与答案长度的肯德尔τ均值为-0.53)、拒绝模板偏差(GPT-5在对抗性管道中约30%为简短拒绝回答)以及领域特定的表面偏好等系统性误差。通过引入对抗性打乱检索管道,数据集能够有效区分真正的质量评估指标与仅反映检索过程表面混淆因素的伪指标。此外,数据集中仅包含模型输出和指标分数,不包含原始问题、黄金答案或检索文本,既遵守了原始数据集的许可规定,又为研究人员提供了独立分析评判偏差的纯净实验场。
使用方法
使用该数据集时,研究人员可通过加载metric_scores_compact.json文件直接获取所有75个实验单元的指标矩阵,快速复现论文中的可靠性过滤实验。对于需要分析原始答案文本的应用场景,可以从raw/stage_b目录下获取包含评判分数的已脱敏答案记录,并通过sample_id字段与原始数据集(如HotpotQA、MS MARCO等)进行连接,补全问题文本和上下文信息。数据集特别适用于研究无监督指标聚合过滤方法、压力测试新的RAG评估框架(如RAGAS、ARES等),以及审计现有评估体系中的系统性偏差。需要注意的是,该数据集不适用于训练新的评判模型或进行仅检索器的评估,且应谨慎理解高LLM评判分数可能反映的偏差特征。
背景与挑战
背景概述
SAID RAG Evaluation Benchmark(v1.1)是由匿名研究团队于2026年创建的评估基准,旨在系统研究基于大型语言模型(LLM)作为评判者的检索增强生成(RAG)流水线评价指标的可信度与偏差问题。该基准配套的论文《Some RAG Metrics Don't Measure Quality: Detecting Surface Confounds via Retrieval Invariants》已投稿至NeurIPS 2026 Evaluations & Datasets Track。通过整合HotpotQA、MS MARCO、WikiQA、PubMedQA和FinQA五个英文问答数据集,构建了涵盖75个实验单元、32种流水线配置、10项LLM评判指标及2.4M个评分值的大规模评估矩阵,辅以人工标注(Krippendorff's α=0.980),为研究LLM评判中的系统偏差(如长度偏差和拒绝模板偏差)提供了标准化实验平台,对推动RAG评估方法论的发展具有重要影响。
当前挑战
该数据集面临的挑战主要来自两个层面。在领域问题层面,当前RAG评估依赖LLM作为评判者,但研究发现多项指标并不真正测量生成质量,而是捕捉到检索不变性等表面混淆因素,如简洁性指标与答案长度的肯德尔相关系数达−0.53,幻觉判分受拒绝模板影响显著,导致评估结果失真。在构建过程中,研究团队需解决跨五个异构数据源的样本标识符对齐、原始数据(问题、正确答案、检索上下文)因许可协议限制无法再分发的技术难题,仅公开模型输出与评分,用户需自行通过数据库连接恢复完整实验环境。此外,75个实验单元中有14个在SAID过滤方法下呈现退化,主要源自GPT-5模型较高的拒绝响应率,揭示了LLM评判本身的不稳定性。
常用场景
经典使用场景
在检索增强生成领域,评估基准的构建始终是衡量系统性能的基石。SAID RAG Evaluation Benchmark专为研究大语言模型作为评判者的评估可靠性而生,其最经典的使用场景在于对RAG流水线进行多维度、系统性的度量分析。该基准汇聚了来自五个经典问答数据集(如HotpotQA、MS MARCO)的样本,结合五种生成模型与三种前沿评判模型,构建出75个实验单元、32种流水线变体的丰富评估矩阵。研究者可借助其中10项由大模型评判的指标(如忠实性、相关性、完整性)与人工标注的对照数据,深入衡量不同RAG配置下的表现差异,为探索评估指标的偏差特性提供了标准化的实验平台。
衍生相关工作
SAID基准的诞生催生了一系列富有影响力的研究工作。围绕该基准揭示的LM评判偏差,研究者开始系统性地探索评估指标与表面特征(如回答长度、风格模板)之间的内在关联,推动了面向RAG评估的去偏方法研究。其所提出的检索不变性理论框架,为后续设计更鲁棒的无监督度量过滤算法提供了理论支点。此外,该基准包含的75个实验单元与人工标注数据,已成为训练和验证新型评估方法论的标准测试床,直接促进了RAGChecker、DeepEval等评估工具的迭代优化。在更广阔的学术视野中,SAID基准所倡导的批判性评估理念,正深刻影响着生成式AI系统可信度研究领域的发展方向。
数据集最近研究
最新研究方向
该基准测试聚焦于检索增强生成(RAG)流水线评估中的无监督度量可靠性过滤问题,揭示了以大型语言模型作为评判者时存在的系统性偏差,如长度偏好、拒绝模板偏好及领域特定的表面特征偏好。通过构建涵盖5个数据集、5个生成器、3个前沿评判模型及32条流水线的75格评估矩阵,研究首次系统性地论证了传统RAG评估指标(如忠实度、上下文利用率等)可能无法真正衡量生成质量,而仅仅是捕捉到了检索表面混淆因素。这一成果不仅为神经信息处理系统大会(NeurIPS)2026年的评测与数据集轨道提供了关键实证,更推动了RAG评估从依赖单一LLM评判向多维度、可解释性更强的无监督过滤范式演进,对当前以RAGAS、ARES等为代表的评估框架提出了重要修正与扩充。
以上内容由遇见数据集搜集并总结生成



