mmRAG

Name: mmRAG
Creator: 南京大学
Published: 2025-05-16 20:31:29
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://doi.org/10.57967/hf/5475

下载链接

链接失效反馈

官方服务：

资源简介：

mmRAG是一个模块化的基准数据集，旨在评估多模态检索增强生成（RAG）系统。该数据集集成了来自六个不同问答数据集的查询，涵盖了文本、表格和知识图谱。数据集包含5124548条数据，包括5,124个查询、3.2百万个文档块和88,751个已标注的查询-块对。mmRAG的构建过程包括数据集收集、数据加工和数据标注三个阶段。数据集的标注采用标准的信息检索协议，提供了充分的标注信息来评估检索和查询路由的准确性。该数据集可用于评估RAG系统的查询路由、检索和生成等主要组件，为多模态RAG系统的模块化评估提供了一个独特的测试平台。

mmRAG is a modular benchmark dataset designed to evaluate multimodal retrieval-augmented generation (RAG) systems. It integrates queries from six distinct question answering datasets, covering text, tables, and knowledge graphs. The dataset comprises 5,124,548 total entries, including 5,124 queries, 3.2 million document chunks, and 88,751 annotated query-chunk pairs. The construction of mmRAG includes three stages: dataset collection, data processing, and data annotation. The dataset adopts standard information retrieval protocols for annotation, providing sufficient annotated information to evaluate the accuracy of retrieval and query routing. This dataset can be used to evaluate core components of RAG systems such as query routing, retrieval, and generation, providing a unique testbed for modular evaluation of multimodal RAG systems.

提供机构：

南京大学

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

mmRAG数据集的构建过程分为三个阶段：数据集收集、数据处理和数据标注。首先，从六个涵盖文本、表格和知识图谱的问答数据集中选取多样化的查询，确保多模态覆盖和真实用户查询的多样性。数据处理阶段通过聚类技术筛选代表性查询，将不同格式的文档统一转换为可检索的文本块，并采用固定长度的分块策略以提高检索兼容性。数据标注则遵循信息检索标准，结合基于池化和大语言模型的自动标注方法，为每个查询-文本块对提供精细的三级相关性标签，并进一步推导出数据集级别的相关性标签以支持查询路由评估。

特点

mmRAG数据集以其多模态和模块化评估框架脱颖而出。该数据集整合了来自文本、表格和知识图谱的多样化查询，构建了包含5124个查询、320万文本块和88751个标注对的统一语料库。其核心创新在于提供了跨数据集的相关性标注和数据集级别的路由标签，使得研究者能够直接评估检索系统的准确性和查询路由组件的性能，而非仅依赖端到端的生成质量评估。此外，数据集通过分层抽样划分为训练集、开发集和测试集，确保了评估的公平性和可重复性。

使用方法

mmRAG数据集支持对检索增强生成系统的全面评估。研究者可利用其提供的多层次标注信息，分别评估查询路由、检索和生成组件的性能。对于检索评估，可使用标准的IR指标（如NDCG@k、MAP@k）基于标注的相关性标签进行直接测量；对于路由评估，可利用数据集级别的相关性标签分析不同路由策略的准确性；而端到端评估则可通过将检索结果输入大语言模型并比较生成答案与标准答案来实现。数据集还提供了基线性能指标，方便研究者进行对比分析。

背景与挑战

背景概述

mmRAG是由南京大学软件新技术国家重点实验室的研究团队于2025年提出的一个多模态检索增强生成（RAG）基准测试数据集。该数据集旨在解决现有RAG评估中存在的两个主要局限：一是评估主要集中于文本检索，二是依赖于对生成输出的端到端评估。mmRAG整合了来自六个不同问答数据集的查询，涵盖文本、表格和知识图谱三种模态，并统一转换为可检索的文档格式。通过遵循标准信息检索流程标注文档相关性并推导数据集相关性，mmRAG支持对RAG系统各组件（如检索准确性和查询路由）的直接、细粒度评估。

当前挑战

mmRAG面临的挑战主要体现在两个方面：首先，在领域问题方面，现有的RAG系统需要处理异构知识源（如知识图谱）的推理，而现有基准测试大多局限于单模态，且缺乏对查询路由的评估支持；其次，在构建过程中，团队需要解决多模态数据统一表示、跨数据集相关性标注以及大规模数据处理的难题。特别是需要将不同格式的数据（文本、表格和知识图谱）转换为统一的文档表示，并开发高效的标注流程来确保数据质量。

常用场景

经典使用场景

在信息检索与生成领域，mmRAG数据集为多模态检索增强生成（RAG）系统提供了全面的评估基准。该数据集整合了文本、表格和知识图谱三种模态的数据，支持对检索、查询路由和生成等核心组件的模块化评估。其经典使用场景包括评估RAG系统在复杂多模态查询中的表现，例如跨模态信息融合、多跳推理等任务。通过提供细粒度的相关性标注，mmRAG能够精确衡量系统在不同模态数据上的检索准确性和生成质量。

实际应用

在实际应用中，mmRAG可广泛应用于需要多源知识融合的场景。例如，在智能客服系统中，它能够评估系统从结构化表格和非结构化文本中联合检索信息的能力；在金融分析领域，可测试系统对专业表格数据的理解与推理；在知识图谱增强的搜索引擎中，能验证跨模态检索的准确性。此外，其模块化评估框架也为企业定制RAG系统提供了诊断工具，可针对性优化检索或生成组件。

衍生相关工作

基于mmRAG的模块化特性，已衍生出多个重要研究方向：一是跨模态检索增强方法，如结合稠密检索与图神经网络的知识图谱查询技术；二是智能查询路由算法，包括基于语义相似度的数据集选择策略；三是端到端多模态RAG架构优化研究。该数据集还促进了评估指标的创新，如提出的数据集级相关性评分机制已被后续工作扩展用于垂直领域评估。这些衍生研究显著推动了多模态RAG技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集