five

MTRAG|多轮对话数据集|RAG数据集

收藏
github2024-12-18 更新2024-12-19 收录
多轮对话
RAG
下载链接:
https://github.com/IBM/mt-rag-benchmark
下载链接
链接失效反馈
资源简介:
MTRAG是一个综合且多样的人类生成的多轮RAG数据集,伴随四个文档语料库。据我们所知,MTRAG是第一个端到端的人类生成的多轮RAG基准,反映了多轮对话的真实世界属性。
创建时间:
2024-12-18
原始信息汇总

MTRAG: Multi-Turn RAG Benchmark

数据集概述

MTRAG是一个综合且多样的人工生成的多轮RAG(Retrieval-Augmented Generation)数据集,包含四个文档语料库。该数据集旨在反映多轮对话的真实世界属性,是目前首个端到端的人工生成的多轮RAG基准。

语料库

数据集基于四个领域的文档语料库:ClapNQ、Cloud、FiQA和Govt。其中,ClapNQ和FiQA是来自QA/IR数据集的现有语料库,而Govt和Cloud是为该基准专门组装的新语料库。

语料库 领域 数据 文档数量 段落数量
ClapNQ Wikipedia Corpus 4,293 183,408
Cloud 技术文档 Corpus 57,638 61,022
FiQA 金融 Corpus 7,661 49,607
Govt 政府 Corpus 8,578 72,422

人工数据

MTRAG包含110个多轮对话,转换为842个评估任务。

特征

  • 多样的问题类型
  • 可回答、不可回答、部分回答和对话式问题
  • 多轮:跟进和澄清
  • 四个领域
  • 相关和不相关的段落(不相关的段落可作为硬负样本)

对话

提供了110个对话的基准,平均每个对话有7.7轮。每个对话都经过审查阶段,以确保高质量。

检索任务

每个领域的检索任务以BEIR格式提供,仅限于可回答和部分回答任务。

名称 语料库 查询
ClapNQ Corpus Queries
Cloud Corpus Queries
FiQA Corpus Queries
Govt Corpus Queries

生成任务

对话被转换为842个任务,每个任务包含所有之前的轮次和最后一个用户问题。生成任务在三种检索设置下进行评估。

设置 描述 文件
Reference 使用参考段落生成 reference.jsonl
Reference + RAG 检索后生成,但保留参考段落在前5个段落中 reference+RAG.jsonl
Full RAG 检索后生成,检索结果为前5个段落 RAG.jsonl

合成数据

提供了200个合成生成的对话,这些对话遵循人工数据的属性。

对话

合成对话可在此处获取。

生成任务

设置 描述 文件
Reference 使用参考段落生成 synthetic.jsonl
AI搜集汇总
数据集介绍
main_image_url
构建方式
MTRAG数据集的构建基于四个领域的文档语料库,包括ClapNQ、Cloud、FiQA和Govt。这些语料库涵盖了从Wikipedia到技术文档、金融和政府文件的多样化领域。数据集的核心部分由110个多轮对话组成,这些对话被转换为842个评估任务。每个对话平均包含7.7轮,涉及多种问题类型和多轮对话特性。对话的创建经过严格的审核流程,确保了数据的高质量和真实性。此外,数据集还包含了合成数据,以补充人工创建数据的不足。
使用方法
MTRAG数据集适用于多种任务,包括检索和生成任务。对于检索任务,用户可以使用BEIR代码库进行实验,需先将语料库导入。生成任务则可以使用任何模型,如HuggingFace上的模型,并根据提供的设置进行实验。数据集还提供了评估结果的分析文件,用户可以通过InspectorRAGet工具进行进一步的分析和可视化。
背景与挑战
背景概述
MTRAG(Multi-Turn RAG Benchmark)是由Yannis Katsis等人于近期创建的多轮对话数据集,旨在为检索增强生成(RAG)系统提供一个全面且多样化的基准。该数据集基于四个领域的文档语料库构建,包括ClapNQ、Cloud、FiQA和Govt,其中Cloud和Govt是专门为此基准新构建的语料库。MTRAG不仅涵盖了多轮对话中的多样化问题类型,还包含了可回答、不可回答、部分回答以及对话式问题,反映了真实世界的多轮对话特性。该数据集的创建标志着多轮对话研究领域的一个重要进展,为评估和改进RAG系统提供了宝贵的资源。
当前挑战
MTRAG数据集在构建过程中面临多项挑战。首先,多轮对话的复杂性要求数据集能够涵盖多种问题类型和对话场景,确保其广泛适用性。其次,数据集的构建需要高质量的人工标注,以确保对话的自然性和连贯性,这增加了数据集创建的时间和成本。此外,数据集的多样性也带来了技术挑战,特别是在检索和生成任务中,如何有效处理相关和不相关的文档段落,以及如何在多轮对话中保持上下文的连贯性,都是需要解决的关键问题。最后,合成数据的生成虽然提高了数据集的规模,但也带来了数据质量和真实性方面的挑战,需要进一步的验证和评估。
常用场景
经典使用场景
MTRAG数据集的经典使用场景主要集中在多轮对话系统中的检索增强生成(RAG)任务。该数据集通过提供多领域、多轮次的对话数据,支持研究者在不同领域内评估和优化检索与生成模型的性能。具体而言,MTRAG数据集可用于训练和测试模型在多轮对话中的检索准确性、生成响应的连贯性以及对复杂问题的处理能力。
解决学术问题
MTRAG数据集解决了多轮对话系统中检索与生成模型面临的多个学术研究问题。首先,它通过提供多领域的对话数据,帮助研究者解决跨领域检索与生成模型的泛化能力问题。其次,数据集中的多轮对话设计,有效解决了模型在处理复杂、多步骤问题时的能力瓶颈。此外,MTRAG还通过引入不可回答和部分回答的问题类型,推动了模型在不确定性条件下的鲁棒性研究。
实际应用
在实际应用中,MTRAG数据集可广泛应用于智能客服、虚拟助手和在线教育等领域。通过利用该数据集训练的模型,能够更有效地处理用户的多轮提问,提供连贯且准确的回答。例如,在智能客服系统中,模型可以根据用户的历史对话记录,检索相关文档并生成符合上下文的响应,从而提升用户体验。
数据集最近研究
最新研究方向
在多轮对话生成与检索增强生成(RAG)系统的评估领域,MTRAG数据集的最新研究方向主要集中在多轮对话的复杂性建模与生成质量的提升。该数据集通过引入多领域文档语料库和多样化的对话任务,推动了多轮对话系统在真实场景中的应用研究。研究者们正致力于探索如何通过检索增强生成技术,提升对话系统的上下文理解能力,特别是在长对话和复杂问题解答中的表现。此外,合成数据的生成与评估也成为研究热点,旨在通过自动化手段降低数据标注成本,并提升数据集的规模和多样性。这些研究不仅有助于提升对话系统的实际应用效果,也为未来智能对话技术的发展奠定了坚实基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录