MTRAG
收藏github2024-12-18 更新2024-12-19 收录
下载链接:
https://github.com/IBM/mt-rag-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
MTRAG是一个综合且多样的人类生成的多轮RAG数据集,伴随四个文档语料库。据我们所知,MTRAG是第一个端到端的人类生成的多轮RAG基准,反映了多轮对话的真实世界属性。
MTRAG is a comprehensive and diverse human-generated multi-turn RAG dataset accompanied by four document corpora. To the best of our knowledge, MTRAG is the first end-to-end human-generated multi-turn RAG benchmark that reflects the real-world properties of multi-turn conversations.
创建时间:
2024-12-18
原始信息汇总
MTRAG: Multi-Turn RAG Benchmark
数据集概述
MTRAG是一个综合且多样的人工生成的多轮RAG(Retrieval-Augmented Generation)数据集,包含四个文档语料库。该数据集旨在反映多轮对话的真实世界属性,是目前首个端到端的人工生成的多轮RAG基准。
语料库
数据集基于四个领域的文档语料库:ClapNQ、Cloud、FiQA和Govt。其中,ClapNQ和FiQA是来自QA/IR数据集的现有语料库,而Govt和Cloud是为该基准专门组装的新语料库。
| 语料库 | 领域 | 数据 | 文档数量 | 段落数量 |
|---|---|---|---|---|
| ClapNQ | Wikipedia | Corpus | 4,293 | 183,408 |
| Cloud | 技术文档 | Corpus | 57,638 | 61,022 |
| FiQA | 金融 | Corpus | 7,661 | 49,607 |
| Govt | 政府 | Corpus | 8,578 | 72,422 |
人工数据
MTRAG包含110个多轮对话,转换为842个评估任务。
特征
- 多样的问题类型
- 可回答、不可回答、部分回答和对话式问题
- 多轮:跟进和澄清
- 四个领域
- 相关和不相关的段落(不相关的段落可作为硬负样本)
对话
提供了110个对话的基准,平均每个对话有7.7轮。每个对话都经过审查阶段,以确保高质量。
检索任务
每个领域的检索任务以BEIR格式提供,仅限于可回答和部分回答任务。
生成任务
对话被转换为842个任务,每个任务包含所有之前的轮次和最后一个用户问题。生成任务在三种检索设置下进行评估。
| 设置 | 描述 | 文件 |
|---|---|---|
| Reference | 使用参考段落生成 | reference.jsonl |
| Reference + RAG | 检索后生成,但保留参考段落在前5个段落中 | reference+RAG.jsonl |
| Full RAG | 检索后生成,检索结果为前5个段落 | RAG.jsonl |
合成数据
提供了200个合成生成的对话,这些对话遵循人工数据的属性。
对话
合成对话可在此处获取。
生成任务
| 设置 | 描述 | 文件 |
|---|---|---|
| Reference | 使用参考段落生成 | synthetic.jsonl |
搜集汇总
数据集介绍

构建方式
MTRAG数据集的构建基于四个领域的文档语料库,包括ClapNQ、Cloud、FiQA和Govt。这些语料库涵盖了从Wikipedia到技术文档、金融和政府文件的多样化领域。数据集的核心部分由110个多轮对话组成,这些对话被转换为842个评估任务。每个对话平均包含7.7轮,涉及多种问题类型和多轮对话特性。对话的创建经过严格的审核流程,确保了数据的高质量和真实性。此外,数据集还包含了合成数据,以补充人工创建数据的不足。
使用方法
MTRAG数据集适用于多种任务,包括检索和生成任务。对于检索任务,用户可以使用BEIR代码库进行实验,需先将语料库导入。生成任务则可以使用任何模型,如HuggingFace上的模型,并根据提供的设置进行实验。数据集还提供了评估结果的分析文件,用户可以通过InspectorRAGet工具进行进一步的分析和可视化。
背景与挑战
背景概述
MTRAG(Multi-Turn RAG Benchmark)是由Yannis Katsis等人于近期创建的多轮对话数据集,旨在为检索增强生成(RAG)系统提供一个全面且多样化的基准。该数据集基于四个领域的文档语料库构建,包括ClapNQ、Cloud、FiQA和Govt,其中Cloud和Govt是专门为此基准新构建的语料库。MTRAG不仅涵盖了多轮对话中的多样化问题类型,还包含了可回答、不可回答、部分回答以及对话式问题,反映了真实世界的多轮对话特性。该数据集的创建标志着多轮对话研究领域的一个重要进展,为评估和改进RAG系统提供了宝贵的资源。
当前挑战
MTRAG数据集在构建过程中面临多项挑战。首先,多轮对话的复杂性要求数据集能够涵盖多种问题类型和对话场景,确保其广泛适用性。其次,数据集的构建需要高质量的人工标注,以确保对话的自然性和连贯性,这增加了数据集创建的时间和成本。此外,数据集的多样性也带来了技术挑战,特别是在检索和生成任务中,如何有效处理相关和不相关的文档段落,以及如何在多轮对话中保持上下文的连贯性,都是需要解决的关键问题。最后,合成数据的生成虽然提高了数据集的规模,但也带来了数据质量和真实性方面的挑战,需要进一步的验证和评估。
常用场景
经典使用场景
MTRAG数据集的经典使用场景主要集中在多轮对话系统中的检索增强生成(RAG)任务。该数据集通过提供多领域、多轮次的对话数据,支持研究者在不同领域内评估和优化检索与生成模型的性能。具体而言,MTRAG数据集可用于训练和测试模型在多轮对话中的检索准确性、生成响应的连贯性以及对复杂问题的处理能力。
解决学术问题
MTRAG数据集解决了多轮对话系统中检索与生成模型面临的多个学术研究问题。首先,它通过提供多领域的对话数据,帮助研究者解决跨领域检索与生成模型的泛化能力问题。其次,数据集中的多轮对话设计,有效解决了模型在处理复杂、多步骤问题时的能力瓶颈。此外,MTRAG还通过引入不可回答和部分回答的问题类型,推动了模型在不确定性条件下的鲁棒性研究。
实际应用
在实际应用中,MTRAG数据集可广泛应用于智能客服、虚拟助手和在线教育等领域。通过利用该数据集训练的模型,能够更有效地处理用户的多轮提问,提供连贯且准确的回答。例如,在智能客服系统中,模型可以根据用户的历史对话记录,检索相关文档并生成符合上下文的响应,从而提升用户体验。
数据集最近研究
最新研究方向
在多轮对话生成与检索增强生成(RAG)系统的评估领域,MTRAG数据集的最新研究方向主要集中在多轮对话的复杂性建模与生成质量的提升。该数据集通过引入多领域文档语料库和多样化的对话任务,推动了多轮对话系统在真实场景中的应用研究。研究者们正致力于探索如何通过检索增强生成技术,提升对话系统的上下文理解能力,特别是在长对话和复杂问题解答中的表现。此外,合成数据的生成与评估也成为研究热点,旨在通过自动化手段降低数据标注成本,并提升数据集的规模和多样性。这些研究不仅有助于提升对话系统的实际应用效果,也为未来智能对话技术的发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



