five

MTRAG|自然语言处理数据集|对话系统评估数据集

收藏
arXiv2025-01-07 更新2025-01-09 收录
自然语言处理
对话系统评估
下载链接:
https://github.com/ibm/mt-rag-benchmark
下载链接
链接失效反馈
资源简介:
MTRAG是由IBM研究院开发的多轮对话检索增强生成(RAG)基准数据集,旨在评估RAG系统在多轮对话中的表现。该数据集包含110个对话,平均每个对话有7.7轮,总共842个任务,涵盖了四个不同领域(如维基百科、金融、政府和技术文档)。数据集的创建过程通过人工标注者与RAG系统的实时交互完成,确保了对话的多样性和真实性。每个对话都经过精心设计,包含多种问题类型、多轮对话模式以及可回答性维度。MTRAG的应用领域主要集中在自然语言处理中的对话系统评估,旨在解决多轮对话中检索和生成的挑战,特别是在处理不可回答问题、非独立问题以及跨领域对话时的表现。
提供机构:
IBM研究院
创建时间:
2025-01-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
MTRAG数据集的构建过程采用了人工标注与实时交互相结合的方式。标注者通过定制的聊天应用程序与一个实时的RAG系统进行交互,模拟真实对话场景。在每个对话轮次中,标注者提出问题,调整检索到的相关段落,并修复生成的响应以确保其质量。标注者还通过多样化问题类型、多轮对话模式和可回答性维度来丰富对话内容。最终,数据集包含110个对话,平均每个对话有7.7轮,共842个任务。
特点
MTRAG数据集具有多样性和挑战性,涵盖了四个不同领域的对话,每个对话都包含多种问题类型、多轮对话模式和可回答性维度。数据集特别关注多轮对话中的检索和生成挑战,如后续轮次中的检索变化、不可回答问题以及非独立问题。此外,数据集的对话经过人工修复,确保了高质量的参考响应。
使用方法
MTRAG数据集可用于评估RAG系统的检索和生成能力。用户可以通过该数据集测试模型在多轮对话中的表现,特别是在处理后续轮次、不可回答问题和非独立问题时的能力。数据集还提供了自动化和人工评估的结合,帮助用户分析模型在不同检索设置下的表现。此外,MTRAG还提供了一个合成对话的伴生数据集MTRAG-S,用于进一步研究合成数据与人工生成数据的差异。
背景与挑战
背景概述
MTRAG(Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation Systems)是由IBM研究院于2025年发布的一个多轮对话基准数据集,旨在评估检索增强生成(RAG)系统在多轮对话中的表现。该数据集由110个对话组成,平均每个对话包含7.7轮,涵盖四个不同领域,总计842个任务。MTRAG的创建过程通过人类标注者与RAG系统的实时交互完成,确保了对话的多样性和真实性。该数据集的发布填补了多轮RAG对话评估的空白,推动了RAG系统在复杂对话场景中的研究与应用。
当前挑战
MTRAG数据集在构建和应用过程中面临多重挑战。首先,多轮对话的复杂性要求系统能够处理上下文依赖的问题,尤其是在后续轮次中,系统需要准确理解并回应基于前文的问题。其次,数据集中包含大量不可回答的问题,这对模型的生成能力和检索能力提出了更高的要求,避免生成不准确或误导性的回答。此外,构建过程中,标注者需要确保对话的多样性和自然性,同时修复系统生成的错误回答,这一过程耗时且复杂。最后,自动评估多轮对话的生成质量仍然是一个未解决的难题,现有的自动评估指标与人类评估结果之间的相关性尚不理想。
常用场景
经典使用场景
MTRAG数据集主要用于评估多轮对话中的检索增强生成(RAG)系统。其经典使用场景包括模拟真实世界中的多轮对话,涵盖多种问题类型、多轮对话模式以及不同领域的文档。通过这种多轮对话的评估,研究者能够全面测试RAG系统在复杂对话环境中的表现,尤其是在后续轮次中的检索和生成能力。
衍生相关工作
MTRAG数据集衍生了许多相关研究工作,尤其是在多轮对话和检索增强生成领域。基于MTRAG,研究者开发了多种自动化评估方法,如基于LLM的自动评估和合成数据生成。此外,MTRAG还推动了多轮对话中检索策略的改进,如上下文查询重写技术。这些衍生工作不仅扩展了MTRAG的应用范围,还为多轮对话系统的进一步发展提供了理论基础和实践指导。
数据集最近研究
最新研究方向
近年来,检索增强生成(RAG)系统在大型语言模型(LLMs)中的应用日益广泛,尤其是在多轮对话场景中。MTRAG数据集的提出填补了这一领域的研究空白,专注于评估多轮对话中的RAG系统性能。该数据集通过模拟真实世界的多轮对话,涵盖了多个领域和复杂的问题类型,如不可回答问题、非独立问题以及跨领域问题。研究表明,即使是当前最先进的RAG系统在处理多轮对话时仍面临显著挑战,尤其是在后续轮次中的检索和生成任务上。MTRAG的引入不仅为RAG系统的评估提供了新的基准,还推动了自动化评估和合成数据生成的研究,为未来的多轮对话系统优化提供了重要参考。
相关研究论文
  • 1
    MTRAG: A Multi-Turn Conversational Benchmark for Evaluating Retrieval-Augmented Generation SystemsIBM研究院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录