M2RAG

github2025-03-16 更新2025-02-27 收录

下载链接：

https://github.com/NEUIR/M2RAG

下载链接

链接失效反馈

官方服务：

资源简介：

M2RAG基准测试通过使用多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）。它包括四个任务：图像描述、多模态问答、事实验证和图像重新排序，评估MLLMs利用多模态上下文知识的能力。

The M2RAG benchmark evaluates Multimodal Large Language Models (MLLMs) through the task of answering questions using multimodally retrieved documents. It encompasses four tasks: image captioning, multimodal question answering, fact verification, and image re-ranking, which assess the ability of MLLMs to leverage multimodal contextual knowledge.

创建时间：

2025-02-19

原始信息汇总

M2RAG 数据集概述

数据集简介

数据集名称：M2RAG
数据集用途：评估多模态大型语言模型（MLLMs）在利用多模态检索文档回答问题方面的能力。
包含任务：图像字幕、多模态问答、事实验证、图像重排。

数据集构成

数据结构：数据集分为四个任务文件夹，包含对应的训练和测试数据。

data/ └──m2rag/ ├──fact_verify/ ├──image_cap/ ├──image_rerank/ ├──mmqa/ ├──imgs.lineidx.new └──imgs.tsv

使用要求

环境要求：Python 3.10，Pytorch，Transformers，Clip，Faiss，Tqdm，Numpy，Base64，Diffusers，Flash-Attn，Llamafactory，Accelerate，Nltk，Rouge Score，Sklearn。
预训练模型：MiniCPM-V 2.6，Qwen2-VL，VISTA。

数据集获取

下载方式：使用 git clone 命令下载项目代码，从 Hugging Face 或按照说明逐步构建数据集。
数据链接：M2RAG，图像数据从 Google Drive 下载。

使用说明

零样本设置：提供脚本进行编码、检索、推理等步骤。
模型训练：提供脚本进行训练数据准备、模型微调、推理等步骤。

评估方法

评估脚本：根据任务类型使用不同的评估脚本进行模型性能评估。

联系方式

联系方式：zhuxingsheng@stumail.neu.edu.cn，zhoutianshuo@stumail.neu.edu.cn。

引用信息

论文引用：Liu, Zhenghao, et al. "Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts." arXiv preprint arXiv:2502.17297 (2025 Mar 2025).

搜集汇总

数据集介绍

构建方式

M2RAG数据集的构建采取多模态检索与生成相结合的方式，旨在评估多模态大型语言模型（MLLMs）在利用多模态检索文档回答问题方面的能力。该数据集涵盖图像字幕、多模态问答、事实验证和图像重排四项任务，通过这些任务全面评估MLLMs对多模态情境知识的运用效能。

使用方法

使用M2RAG数据集，用户需要先安装指定的环境依赖包，并准备预训练模型。数据集可以通过直接下载使用，或按照指导步骤逐步构建。使用时，用户可以按照脚本指导进行零样本设置下的推理，也可以通过训练MM-RAIT方法对模型进行微调，进而进行推理评估。评估模型性能时，根据不同的任务类型，调用相应的评估脚本进行效果评估。

背景与挑战

背景概述

M2RAG数据集，全称为Multi-modal Retrieval-Augmented Generation，是一项针对多模态大型语言模型（MLLMs）的基准测试。该数据集由刘振浩、朱星胜等研究人员于2025年创建，旨在评估MLLMs在利用多模态检索文档回答问题方面的能力。M2RAG包含四个任务：图像标题生成、多模态问答、事实验证和图像重排，以此来评估MLLMs在多模态环境中的知识运用效能。该数据集的创建，对多模态信息处理领域产生了重要影响，为相关研究提供了宝贵的实验资源。

当前挑战

M2RAG数据集在构建和应用过程中面临的挑战主要包括：1) 多模态信息融合的复杂性，如何在不同的模态间有效整合和利用信息；2) 大规模多模态数据集的构建难度，涉及数据的收集、处理和标注；3) 模型在实际应用中的泛化能力，特别是在处理未见过的多模态场景时的表现；4) 评估指标的选择和定义，如何全面、准确地衡量模型在多模态任务上的性能。

常用场景

经典使用场景

M2RAG数据集针对多模态大语言模型进行了评估，其经典使用场景在于利用多模态检索文档回答问题。该数据集涵盖了图像字幕、多模态问答、事实核查和图像重排等四个任务，全面评估模型在多模态环境中的知识运用能力。

解决学术问题

M2RAG数据集解决了多模态大语言模型在处理实际任务时如何有效利用多模态上下文知识的问题。通过提供多模态检索增强的指令微调方法（MM-RAIT），该数据集帮助研究者们提升了模型在多模态环境下的表现，为学术研究提供了新的视角和方法。

实际应用

在实际应用中，M2RAG数据集的应用场景广泛，例如，可以用于智能图像标注、多模态信息检索、交互式多模态问答系统等，为人工智能技术在多模态交互领域的应用提供了丰富的实验基础和数据支持。

数据集最近研究