mmRAG

github2025-05-19 更新2025-05-21 收录

下载链接：

https://github.com/nju-websoft/mmRAG

下载链接

链接失效反馈

官方服务：

资源简介：

mmRAG是一个模块化基准测试，旨在评估多模态检索增强生成系统。该基准集成了来自六个不同问答数据集的查询，涵盖文本、表格和知识图谱，这些查询被统一转换为可检索的文档。为了实现对单个RAG组件的直接、细粒度评估，我们遵循标准的信息检索程序来注释文档相关性并得出数据集相关性。

mmRAG is a modular benchmark designed to evaluate multimodal retrieval-augmented generation (RAG) systems. This benchmark integrates queries from six distinct question answering (QA) datasets covering text, tables, and knowledge graphs, with all related resources uniformly converted into retrievable documents. To enable direct, fine-grained evaluation of individual RAG components, we follow standard information retrieval procedures to annotate document relevance and derive dataset-level relevance scores.

创建时间：

2025-05-13

原始信息汇总

mmRAG数据集概述

数据集基本信息

名称: mmRAG
类型: 多模态检索增强生成基准数据集
存储位置: Hugging Face
相关论文: "mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs"

数据集特点

设计目的: 评估多模态RAG系统
数据模态: 文本、表格和知识图谱
查询来源: 来自六个不同的问答数据集
评估维度:
- 检索准确性
- 查询路由
- 端到端生成质量

数据集构成

源数据集:
- NQ
- TriviaQA
- OTT
- TAT
- CWQ
- WebQSP
文档类型: 统一转换为可检索文档格式
标注内容:
- 文档相关性
- 数据集相关性

实验支持

检索方法:
- BM25
- Contriever
- DPR
- bge-large-en-v1.5
- gte-large-en-v1.5
生成评估:
- 特定数据集块生成
- 查询路由生成

数据集构建流程

源数据下载
查询选择
文档表示与收集
分块处理
相关性标注
- 块级标注
- 数据集级标注

搜集汇总

数据集介绍

构建方式

在信息检索与生成领域，mmRAG数据集的构建体现了多模态融合的前沿理念。研究团队从NQ、TriviaQA等六个权威问答数据源中提取查询语句，通过标准化处理将其转化为可检索文档。采用模块化构建策略，首先运用BM25和多种稠密检索模型建立索引体系，随后通过文档分块处理实现细粒度信息组织。为确保评估的全面性，团队严格遵循信息检索标准流程，对文档相关性和数据集相关性进行人工标注，同时保留原始知识图谱的语义关联特性。

特点

作为多模态检索增强生成领域的基准测试集，mmRAG最显著的特点是实现了文本、表格和知识图谱的三元统一。数据集包含丰富的跨模态查询-文档对，每个查询均配备精确标注的相关性评分，支持对检索路由、文档匹配等组件的独立评估。其创新性地采用模块化设计，既支持端到端系统测试，也允许单独验证特定模块性能。数据分布覆盖开放域问答、复杂表格推理等多样化场景，为评估模型的多模态理解能力提供了立体化的测试环境。

使用方法

使用mmRAG需分阶段配置不同实验环境。检索阶段需分别搭建BM25的Java运行环境和稠密检索模型的Python环境，通过专用脚本构建FAISS索引并生成检索结果。模型微调环节提供FlagEmbedding框架的完整训练流程，包括难负例挖掘和参数调优指导。评估系统集成自动化测试模块，用户可通过eval.py脚本直观对比不同检索器的性能指标。对于生成任务，数据集支持基于特定文档块的受限生成和查询路由的智能生成两种模式，研究者可根据需求灵活选择评估维度。

背景与挑战

背景概述

mmRAG数据集由Askio团队于2025年推出，旨在解决检索增强生成（RAG）系统在多模态环境下的评估难题。随着大语言模型能力的不断提升，RAG技术已成为增强模型生成质量的重要范式，但传统评估方法局限于文本检索和端到端输出的模糊评估。mmRAG通过整合来自六个不同问答数据集（涵盖文本、表格和知识图谱）的查询，构建了一个模块化基准测试平台。该数据集不仅标准化了可检索文档的格式，还遵循信息检索标准对文档相关性进行标注，为评估RAG组件的检索准确性和查询路由等关键性能提供了直接、细粒度的依据。这一创新为多模态RAG系统的研究和应用奠定了重要基础。

当前挑战

mmRAG数据集面临的核心挑战包括两方面：在领域问题层面，多模态数据的异质性导致检索和生成任务复杂度显著提升，尤其是知识图谱与表格数据的结构化特性对传统文本检索方法提出了适应性挑战；在构建过程中，数据集需协调来自NQ、TriviaQA等六种异构数据源的格式差异，并设计统一的文档表示方法。此外，基于大语言模型的标注过程存在随机性，需通过严格的池化设计和多轮人工校验确保标注一致性。这些挑战使得数据集的构建需综合运用信息检索、知识图谱嵌入和跨模态对齐等技术，对计算资源和算法设计提出了较高要求。

常用场景

经典使用场景

在信息检索与生成领域，mmRAG数据集为多模态检索增强生成系统提供了标准化的评估基准。该数据集整合了来自文本、表格和知识图谱的多样化查询，通过统一的文档转换机制，支持研究者对检索、路由和生成等核心模块进行独立或联合测试。其模块化设计特别适合验证跨模态检索的协同效应，例如评估表格数据与知识图谱在问答任务中的互补性表现。

衍生相关工作

基于mmRAG的基准测试催生了多项创新研究，包括基于动态路由的多模态检索架构MM-Router，以及融合对比学习的稠密检索模型CL-DPR。其标注体系为后续工作如KGM-RAG提供了知识图谱细粒度评估标准，而模块化设计思想则影响了HybridQA等跨模态数据集的构建方法论。

数据集最近研究