mirage

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/nlpai-lab/mirage

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE是一个用于评估检索增强生成(RAG)系统的基准数据集，包含7560个问答对和来自多样化维基问答数据集（IfQA、NaturalQA、TriviaQA、DROP、PopQA）的37800个上下文池。MIRAGE能够在现实、噪声和理想情况下对大型语言模型和检索器进行稳健评估，并引入了新的指标来分析上下文敏感性、噪声脆弱性和检索有效性。

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

在信息检索与生成融合系统评估领域，MIRAGE数据集通过整合五个权威的维基百科问答数据集（IfQA、NaturalQA、TriviaQA、DROP、PopQA）构建而成。其采用多源知识融合策略，从原始语料中提取7560组问答对并构建包含37800个文档片段的上下文池，每个样本均标注了文档来源、支持度分数及噪声环境下的检索标签，形成具有层次化结构的评估框架。

使用方法

研究者可通过加载标准数据分割直接进行端到端系统测试，利用预定义的查询标识符与文档映射关系构建检索-生成流水线。建议分别采用噪声设置与全知设置进行对比实验，通过分析答案生成质量与上下文支持度的关联性，量化系统在不同知识密度下的表现差异。数据集内置的评估指标可直接用于衡量模型对冗余信息的过滤能力及关键知识的捕捉精度。

背景与挑战

背景概述

随着检索增强生成技术在自然语言处理领域的兴起，2025年由nlpai-lab研究团队构建的MIRAGE数据集应运而生。该数据集整合了IfQA、NaturalQA等五个维基百科问答数据集，通过7560组问答对与37800个上下文池，致力于解决复杂知识场景下大语言模型与检索系统的协同评估问题。其多源异构的数据结构为评估模型在噪声环境与理想条件下的表现提供了标准化基准，显著推进了开放域问答系统的可解释性与鲁棒性研究。

当前挑战

构建过程中需克服多源数据对齐与噪声标注的挑战，包括原始问答数据格式异构性整合与证据片段精准映射问题。在领域层面，该数据集旨在攻克检索增强生成系统三大核心难题：上下文敏感度量化评估、噪声干扰下的答案稳定性验证，以及检索模块与生成模块的协同效能度量，这些挑战直接关系到实际应用场景中知识推理的准确性与可靠性。

常用场景

经典使用场景

在信息检索与生成融合的前沿领域中，MIRAGE数据集作为评估检索增强生成系统的基准工具，广泛应用于测试大型语言模型在真实、噪声及理想环境下的综合表现。研究者通过其精心构建的问答对与多样化上下文池，系统分析模型对检索内容的敏感度、抗干扰能力及生成准确性，为优化RAG架构提供了关键实验平台。

解决学术问题

该数据集有效解决了检索增强生成系统中上下文依赖性与噪声鲁棒性的核心学术难题。通过整合多源维基百科问答数据，它突破了传统评估对理想化语境的依赖，为量化分析模型在复杂信息环境中的泛化能力提供标准范式，显著推进了语言模型与检索器协同机制的理论研究。

实际应用

面向智能问答系统与知识库构建的实际需求，MIRAGE为商业搜索引擎、学术文献辅助工具等场景提供了性能验证框架。其噪声环境模拟机制可直接迁移至在线服务系统，帮助工程师识别检索链路中的薄弱环节，提升真实场景下信息服务的准确性与稳定性。

数据集最近研究