MTRAG

Name: MTRAG
Creator: IBM研究院
Published: 2025-01-07T09:52:56+08:00

arXiv2025-01-07 更新2025-01-09 收录

自然语言处理

对话评估

数据链接：

https://github.com/ibm/mt-rag-benchmark 数据链接链接失效反馈

官方服务：

资源简介：

MTRAG是由IBM研究院开发的多轮对话检索增强生成（RAG）基准数据集，旨在评估RAG系统在多轮对话中的表现。该数据集包含110个对话，平均每个对话有7.7轮，总共842个任务，涵盖了四个不同领域（如维基百科、金融、政府和技术文档）。数据集的创建过程通过人工标注者与RAG系统的实时交互完成，确保了对话的多样性和真实性。每个对话都经过精心设计，包含多种问题类型、多轮对话模式以及可回答性维度。MTRAG的应用领域主要集中在自然语言处理中的对话系统评估，旨在解决多轮对话中检索和生成的挑战，特别是在处理不可回答问题、非独立问题以及跨领域对话时的表现。

MTRAG is a multi-turn dialogue retrieval-augmented generation (RAG) benchmark dataset developed by IBM Research, designed to evaluate the performance of RAG systems in multi-turn dialogue scenarios. This dataset includes 110 dialogues, with an average of 7.7 turns per dialogue and a total of 842 tasks, covering four distinct domains such as Wikipedia, finance, government, and technical documentation. The dataset was constructed through real-time interaction between human annotators and RAG systems, ensuring the diversity and authenticity of the dialogues. Each dialogue is meticulously designed to incorporate multiple question types, multi-turn dialogue patterns, and answerability dimensions. The main application scope of MTRAG focuses on the evaluation of dialogue systems in natural language processing, aiming to address the challenges of retrieval and generation in multi-turn dialogues, especially the performance when handling unanswerable questions, non-independent questions, and cross-domain dialogues.

提供机构：

IBM研究院

创建时间：

2025-01-07

搜集汇总

数据集介绍

构建方式

MTRAG数据集的构建过程采用了人工标注与实时交互相结合的方式。标注者通过定制的聊天应用程序与一个实时的RAG系统进行交互，模拟真实对话场景。在每个对话轮次中，标注者提出问题，调整检索到的相关段落，并修复生成的响应以确保其质量。标注者还通过多样化问题类型、多轮对话模式和可回答性维度来丰富对话内容。最终，数据集包含110个对话，平均每个对话有7.7轮，共842个任务。

特点

MTRAG数据集具有多样性和挑战性，涵盖了四个不同领域的对话，每个对话都包含多种问题类型、多轮对话模式和可回答性维度。数据集特别关注多轮对话中的检索和生成挑战，如后续轮次中的检索变化、不可回答问题以及非独立问题。此外，数据集的对话经过人工修复，确保了高质量的参考响应。

使用方法

MTRAG数据集可用于评估RAG系统的检索和生成能力。用户可以通过该数据集测试模型在多轮对话中的表现，特别是在处理后续轮次、不可回答问题和非独立问题时的能力。数据集还提供了自动化和人工评估的结合，帮助用户分析模型在不同检索设置下的表现。此外，MTRAG还提供了一个合成对话的伴生数据集MTRAG-S，用于进一步研究合成数据与人工生成数据的差异。

背景与挑战

背景概述

MTRAG（Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems）是由IBM研究院于2025年发布的一个多轮对话基准数据集，旨在评估检索增强生成（RAG）系统在多轮对话中的表现。该数据集由110个对话组成，平均每个对话包含7.7轮，涵盖四个不同领域，总计842个任务。MTRAG的创建过程通过人类标注者与RAG系统的实时交互完成，确保了对话的多样性和真实性。该数据集的发布填补了多轮RAG对话评估的空白，推动了RAG系统在复杂对话场景中的研究与应用。

当前挑战

MTRAG数据集在构建和应用过程中面临多重挑战。首先，多轮对话的复杂性要求系统能够处理上下文依赖的问题，尤其是在后续轮次中，系统需要准确理解并回应基于前文的问题。其次，数据集中包含大量不可回答的问题，这对模型的生成能力和检索能力提出了更高的要求，避免生成不准确或误导性的回答。此外，构建过程中，标注者需要确保对话的多样性和自然性，同时修复系统生成的错误回答，这一过程耗时且复杂。最后，自动评估多轮对话的生成质量仍然是一个未解决的难题，现有的自动评估指标与人类评估结果之间的相关性尚不理想。

常用场景

经典使用场景

MTRAG数据集主要用于评估多轮对话中的检索增强生成（RAG）系统。其经典使用场景包括模拟真实世界中的多轮对话，涵盖多种问题类型、多轮对话模式以及不同领域的文档。通过这种多轮对话的评估，研究者能够全面测试RAG系统在复杂对话环境中的表现，尤其是在后续轮次中的检索和生成能力。

衍生相关工作

MTRAG数据集衍生了许多相关研究工作，尤其是在多轮对话和检索增强生成领域。基于MTRAG，研究者开发了多种自动化评估方法，如基于LLM的自动评估和合成数据生成。此外，MTRAG还推动了多轮对话中检索策略的改进，如上下文查询重写技术。这些衍生工作不仅扩展了MTRAG的应用范围，还为多轮对话系统的进一步发展提供了理论基础和实践指导。

数据集最近研究

MTRAG

资源简介：

相关数据集