MIRAGE

Name: MIRAGE
Creator: 韩国大学, 韩国共和国
Published: 2025-04-24 07:05:46
License: 暂无描述

arXiv2025-04-24 更新2025-04-26 收录

下载链接：

https://github.com/nlpai-lab/MIRAGE

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE是一个针对检索增强生成（RAG）评估的问答数据集，包含7,560个精心策划的实例，对应37,800个检索条目，旨在高效精确地评估检索和生成任务。数据集由韩国大学的研究团队创建，通过多阶段过滤过程确保数据质量。MIRAGE旨在解决现有RAG评估方法中检索池过大、评估方法过于侧重性能提升而忽视检索和生成之间的复杂动态，以及依赖大型外部语言模型导致成本和可访问性问题。数据集适用于评估RAG系统的鲁棒性和全面性，旨在帮助研究人员更好地理解RAG系统的动态和模型对齐的最优配置。

MIRAGE is a question answering dataset designed for retrieval-augmented generation (RAG) evaluation. It contains 7,560 carefully curated instances corresponding to 37,800 retrieval entries, with the goal of efficiently and accurately assessing both retrieval and generation tasks. Developed by a research team from South Korean universities, the dataset employs a multi-stage filtering pipeline to guarantee data quality. MIRAGE aims to resolve three key limitations of current RAG evaluation methods: excessively large retrieval pools, evaluation frameworks that overly focus on performance improvements while neglecting the complex interplay between retrieval and generation stages, and the cost and accessibility barriers incurred by relying on large external language models. This dataset can be used to evaluate the robustness and comprehensiveness of RAG systems, and is intended to assist researchers in gaining a better understanding of RAG system dynamics and the optimal configurations for model alignment.

提供机构：

韩国大学, 韩国共和国

创建时间：

2025-04-24

原始信息汇总

MIRAGE Benchmark 数据集概述

数据集基本信息

名称: MIRAGE Benchmark
用途: 评估检索增强生成（RAG）系统性能
数据规模:
- 7560 个问答对
- 37800 个上下文池
数据来源: 基于Wikipedia的QA基准数据集（IfQA、NaturalQA、TriviaQA、DROP、PopQA）

核心特性

RAG评估设置:
- Base: 仅提供查询的闭卷QA
- Oracle: 提供正确上下文的开卷QA
- Mixed: 包含正确和噪声上下文的真实RAG环境
评估指标:
- 噪声脆弱性（Noise Vulnerability）
- 上下文可接受性（Context Acceptability）
- 上下文不敏感性（Context Insensitivity）
- 上下文误解（Context Misinterpretation）

评估发现

检索器依赖性: 噪声脆弱性和上下文可接受性指标受检索器影响显著
LLM能力: 上下文不敏感性和上下文误解指标与LLM固有能力相关

检索器评估

高效评估: 使用37.8k个文本块（占完整wiki-dump的1%）
扩展效应: 准确反映模型家族内的扩展效应

RAG性能

真实设置: 用实际检索器检索的top-5块替换混合上下文

文件说明

config.yaml: 包含4个LLM和5个检索器的默认设置
main.py: 支持RAG、LLM、RET三种模式
evaluation.py: 评估检索器、LLM和RAG性能

评估结果文件

LLM_result.jsonl: 包含F1、EM_loose和EM_strict分数
RET_result.jsonl: 包含F1、NDCG、精确率和召回率
Metrics.jsonl: 包含4个MIRAGE指标分数

应用特点

简单快速
适合LLM/检索器/RAG实验
计算资源需求低

技术说明

使用vLLM框架进行LLM多GPU推理
使用SentenceTransformer进行检索器单GPU推理
建议使用批量API降低成本

成本考虑

GPT-4o推理单次运行成本约70美元

搜集汇总

数据集介绍

构建方式

MIRAGE数据集通过多阶段筛选流程构建，首先从PopQA、Natural Questions等现有QA数据集中精选符合维基百科内容、答案跨度明确且包含文档信息的样本。采用反向映射策略，通过Elasticsearch将查询精准链接至对应维基百科文章，并运用BERT-base-uncased分词器将文章分割为330词元的语义块。通过支持标签标注、推理验证和人工校验三重过滤机制，最终形成包含7,560个QA对和37,800个文档块的精标数据集，确保每个查询关联正负样本以评估检索与生成组件的协同效能。

特点

作为专为RAG系统评估设计的基准，MIRAGE的创新性体现在其紧凑而挑战性的数据结构中。数据集通过精心设计的噪声注入机制，模拟真实场景中相关与无关信息混杂的复杂环境。其核心价值在于引入四项适应性指标——噪声脆弱性、上下文可接受性、上下文不敏感性和上下文误解度，能够量化评估模型在噪声干扰下的知识整合能力。37,800个文档块构成的检索池既保证评估效率，又通过分层采样策略覆盖多样化语义场景，为分析检索器与生成模型的动态交互提供细粒度视角。

使用方法

使用MIRAGE评估RAG系统时，可采用三种标准化配置：基础设置（无上下文）、预言设置（纯净上下文）和混合设置（噪声上下文）。研究者通过比较模型在不同配置下的精确匹配准确率，结合四项适应性指标量化系统性能。评估流程支持模块化测试，既可单独评估检索器的F1/NDCG指标，也可端到端分析LLM在噪声环境中的知识整合能力。数据集提供标准化提示模板和开源评估代码，支持快速集成至现有研究框架，特别适合探究不同检索器-生成器组合的协同效应与瓶颈。

背景与挑战

背景概述

MIRAGE数据集由韩国大学的Chanhee Park等人于2025年提出，旨在解决检索增强生成（RAG）系统评估中的关键挑战。该数据集包含7,560个精心构建的问答实例，并与37,800个检索条目相关联，为评估检索和生成任务提供了高效且精确的平台。MIRAGE的创建填补了现有基准测试的空白，特别是在细粒度评估RAG系统的噪声鲁棒性、上下文适应性等方面。其创新性评估指标和紧凑设计显著提升了RAG系统评估的可操作性和可重复性，对推动自然语言处理领域的发展具有重要意义。

当前挑战

MIRAGE数据集面临的挑战主要体现在两个方面：领域问题层面，现有RAG评估方法难以量化系统在噪声干扰下的知识整合能力，且缺乏对检索与生成组件交互作用的细粒度分析；构建过程层面，需平衡检索池规模与计算效率的矛盾，确保负样本的语义相似性以提升评估效度，同时需通过多阶段验证解决自动标注与人工校验的偏差问题。此外，数据污染风险和单跳任务局限性也对数据集的全面性提出更高要求。

常用场景

经典使用场景

MIRAGE数据集专为评估检索增强生成（RAG）系统而设计，其经典使用场景包括在问答任务中测试模型对外部知识的整合能力。通过精心设计的7,560个查询实例和37,800个文档块检索池，研究人员能够精确评估模型在噪声环境下区分相关与无关信息的能力。这一场景特别适用于需要模型从混合信息中提取正确答案的复杂任务。

实际应用

在实际应用中，MIRAGE可部署于智能客服、医疗问答等需要实时知识更新的领域。例如，在金融咨询场景中，系统通过该数据集评估框架可检测模型是否将过时政策与最新法规混淆。其紧凑的检索池设计显著降低了企业部署RAG系统的计算成本，而混合上下文评估模式则模拟了真实业务中信息噪声存在的普遍情况。

衍生相关工作

MIRAGE的发布催生了多项经典研究，包括基于其指标体系的轻量级RAG优化框架RAGOpt，以及针对噪声脆弱性的对抗训练方法NoiseShield。该数据集还被扩展应用于多语言评估基准X-MIRAGE，其核心指标已被RAGAS等主流评估工具集成，形成了以适应性评估为核心的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集