five

MTRAG-UN

收藏
arXiv2026-02-27 更新2026-02-28 收录
下载链接:
https://github.com/IBM/mt-rag-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
MTRAG-UN是由IBM研究院构建的多轮对话基准数据集,聚焦检索增强生成技术中的未回答、未明确、非独立问题及模糊响应等挑战场景。该数据集包含666项任务,涵盖6个领域超过2800轮对话,数据来源于人工标注和合成生成的混合方法,涉及银行、电信等企业级语料。其核心目标是推动大语言模型在复杂多轮交互中的意图理解与响应生成能力,尤其适用于客服对话系统等实际应用场景的优化研究。
提供机构:
IBM研究院
创建时间:
2026-02-27
原始信息汇总

MTRAG: Multi-Turn RAG Benchmark 数据集概述

数据集简介

MTRAG 是一个全面且多样化的人工生成的多轮检索增强生成(RAG)数据集,并附带四个文档语料库。据我们所知,MTRAG 是第一个端到端的人工生成多轮 RAG 基准测试,反映了多轮对话的真实世界特性。

核心组成部分

1. 文档语料库

基准测试建立在来自 4 个领域的文档语料库上:ClapNQ、Cloud、FiQA 和 Govt。ClapNQ 和 FiQA 是来自 QA/IR 数据集的现有语料库,而 Govt 和 Cloud 是专门为此基准测试组装的新的语料库。

语料库 领域 数据文件 文档数量 段落数量
ClapNQ 维基百科 https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/clapnq.jsonl.zip 4,293 183,408
Cloud 技术文档 https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/cloud.json.zip 57,638 61,022
FiQA 金融 https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/fiqa.jsonl.zip 7,661 49,607
Govt 政府 https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/govt.jsonl.zip 8,578 72,422

2. 人工生成数据

MTRAG 包含 110 个多轮对话,这些对话被转换为 842 个评估任务。

主要特征

  • 多样化的问题类型
  • 可回答、不可回答、部分回答和会话式问题
  • 多轮:后续问题和澄清
  • 四个领域
  • 相关和不相关的段落

对话数据

提供 110 个对话的基准测试,格式为对话格式,平均每个对话 7.7 轮。每个对话都基于单个语料库领域,并包含各种问题类型、可回答性和多轮维度。

检索任务

每个领域的检索任务采用 BEIR 格式,仅针对可回答和部分回答任务。

名称 语料库 查询文件
ClapNQ https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/clapnq.jsonl.zip https://github.com/IBM/mt-rag-benchmark/tree/main/human/retrieval_tasks/clapnq/
Cloud https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/cloud.json.zip https://github.com/IBM/mt-rag-benchmark/tree/main/human/retrieval_tasks/cloud/
FiQA https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/fiqa.jsonl.zip https://github.com/IBM/mt-rag-benchmark/tree/main/human/retrieval_tasks/fiqa/
Govt https://github.com/IBM/mt-rag-benchmark/blob/main/corpora/passage_level/govt.jsonl.zip https://github.com/IBM/mt-rag-benchmark/tree/main/human/retrieval_tasks/govt/

生成任务

对话被转换为 842 个任务。任务是一个包含所有先前轮次以及最后一个用户问题的对话轮次。生成任务在三种检索设置下测量性能。

设置 描述 文件
Reference 使用参考段落生成 https://github.com/IBM/mt-rag-benchmark/blob/main/human/generation_tasks/reference.jsonl
Reference + RAG 检索后生成,但参考段落保留在前 5 个段落中 https://github.com/IBM/mt-rag-benchmark/blob/main/human/generation_tasks/reference+RAG.jsonl
Full RAG 检索后生成,检索结果由前 5 个段落组成 https://github.com/IBM/mt-rag-benchmark/blob/main/human/generation_tasks/RAG.jsonl

实验结果

提供论文中实验的生成结果分析文件。

设置 描述 文件
Reference 使用参考段落生成 https://github.com/IBM/mt-rag-benchmark/blob/main/human/evaluations/reference.json
Reference + RAG 检索后生成,但参考段落保留在前 5 个段落中 https://github.com/IBM/mt-rag-benchmark/blob/main/human/evaluations/reference+RAG.json
Full RAG 检索后生成,检索结果由前 5 个段落组成 https://github.com/IBM/mt-rag-benchmark/blob/main/human/evaluations/RAG.json
Human Evaluation Reference 在具有人工评估的子集上使用参考段落生成 https://github.com/IBM/mt-rag-benchmark/blob/main/human/evaluations/reference_subset_with_human_evaluations.json

3. 合成数据

提供 200 个遵循人工数据属性的合成生成对话。

生成任务

设置 描述 文件
Reference 使用参考段落生成 https://github.com/IBM/mt-rag-benchmark/blob/main/synthetic/generation_tasks/synthetic.jsonl

使用指南

  • 运行检索:可以使用 BEIR 代码库运行检索实验。
  • 运行生成:可以使用任何所需模型(例如 HuggingFace 上的模型)和设置运行生成实验。
  • 评估检索和生成:可以使用提供的评估脚本评估检索和生成实验。
  • 查看评估结果:提供 InspectorRAGet 格式的分析文件,可用于检查评估结果并进行进一步分析。

相关论文

描述基准测试和实验的论文可在 Arxiv 获取:

  • 标题:MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems
  • 链接:https://arxiv.org/abs/2501.03468

联系方式

  • Sara Rosenthal: sjrosenthal@us.ibm.com
  • Yannis Katsis: yannis.katsis@ibm.com
  • Marina Danilevsky: mdanile@us.ibm.com
搜集汇总
数据集介绍
构建方式
在信息检索与生成融合技术蓬勃发展的背景下,MTRAG-UN数据集的构建遵循了严谨的人工标注与合成生成相结合的方法。该数据集通过RAGAPHENE平台,由专业标注人员生成了总计666个多轮对话任务,涵盖超过2800个对话轮次。构建过程特别聚焦于四种挑战性场景:无法回答的问题、意图不明确的问题、非独立问题以及用户对模型回答不清晰而提出的澄清问题。对于意图不明确的问题,采用了人工撰写与合成拼接两种方式,并辅以查询扩展和上下文相关性过滤技术来生成丰富的参考段落,最后通过大语言模型生成初始响应并经过人工修正与严格验证,确保了数据的高质量和任务的复杂性。
特点
作为多轮检索增强生成领域的前沿基准,MTRAG-UN数据集的核心特征在于其系统性地集成了四类开放挑战。数据集不仅延续了MTRAG基准对无法回答问题的关注,更创新性地引入了对意图不明确、非独立问题以及用户澄清请求的专项评估。其覆盖领域从原有的四个扩展至六个,新增了银行与电信两个企业级文档语料库,这些语料具有文档篇幅长、超链接结构密集的特点,更贴近实际企业应用场景。数据分布上,该基准有意偏向于选择对话中后期的挑战性轮次,并显著提升了无法回答与非独立问题的比例,从而构成了一个对现有模型能力更具压迫性的综合测试平台。
使用方法
该数据集旨在为多轮检索增强生成系统的评估提供标准化基准。研究者可将其用于全面评估检索模型、生成模型以及完整RAG流程的性能。评估时,需遵循论文中设定的指标,包括基于参考的RBllm与RBalg、IDK判断器以及RAGAS的忠实度判断器,并针对问题的可回答性进行条件化处理。对于检索实验,可对比词法、稀疏与稠密等不同检索模型在查询改写策略下的表现。生成实验则需在给定参考段落或检索所得段落的前提下,使用特定提示词要求模型生成响应,并重点分析模型在处理各类挑战性问题时的行为模式,例如是否倾向于在信息不足时做出合理假设而非请求澄清。
背景与挑战
背景概述
随着大型语言模型在信息检索任务中的广泛应用,多轮检索增强生成技术成为自然语言处理领域的研究热点。IBM研究院于2025年推出的MTRAG-UN基准测试,旨在系统探索多轮对话中存在的未解决挑战。该数据集包含666个任务、超过2800轮对话,覆盖金融、电信等六个专业领域,重点关注不可回答、未明确指定、非独立性问题及模糊响应四类核心难题。其构建延续了MTRAG基准的研究脉络,通过引入企业级对话场景,为评估RAG系统的鲁棒性与适应性提供了更全面的测试平台。
当前挑战
该数据集主要应对多轮检索增强生成中意图理解与响应生成的复杂性挑战。具体而言,模型需准确识别不可回答问题的边界,避免产生幻觉响应;针对未明确指定的模糊查询,需具备意图澄清与选项枚举能力;对于依赖对话历史的非独立性问题,则要求实现跨轮次的信息关联与上下文建模。在构建过程中,标注者需平衡对话自然性与挑战性,确保未明确指定问题的语义多样性,同时处理企业领域文档的复杂超链接结构与内容相似性问题,这对标注一致性与数据质量控制提出了较高要求。
常用场景
经典使用场景
在信息检索与对话系统研究领域,多轮检索增强生成(Multi-turn RAG)已成为评估大型语言模型交互能力的重要范式。MTRAG-UN作为该领域的专用基准,其经典使用场景集中于模拟真实对话中用户提出的无法回答、表述模糊、非独立或需要澄清的复杂问题。研究者利用该数据集中的666个任务和超过2800轮对话,系统评估模型在银行、电信等六个专业领域内处理多轮信息寻求对话的鲁棒性,尤其关注模型在遇到语义模糊或信息缺失时的应对策略。
解决学术问题
该数据集针对多轮RAG系统中长期存在的核心学术挑战提供了系统化评估框架。它有效解决了模型对无法回答问题的盲目响应倾向,通过标注大量未回答、未明确问题,推动模型学会合理表达信息缺失。同时,数据集揭示了模型在处理非独立问题时对话历史利用不足的缺陷,并为评估模型对模糊问题的澄清能力建立了标准化度量体系。这些贡献显著提升了对话系统在复杂信息交互场景下的可靠性与透明度。
衍生相关工作
MTRAG-UN的发布催生了一系列围绕多轮RAG优化的创新研究。在检索层面,基于该数据集的评估推动了查询重写技术的演进,如采用GPT-OSS-20B等模型提升非独立问题的检索精度。在生成层面,研究揭示了DeepSeek-V3等模型在无法回答问题上的改进潜力。同时,该数据集与早期MTRAG基准形成互补,共同促进了RAGAPHENE等标注平台的发展,并为TREC iKAT、RAD-Bench等后续对话评估基准的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作