five

M2RAG|多模态模型数据集|自然语言处理数据集

收藏
github2025-03-16 更新2025-02-27 收录
多模态模型
自然语言处理
下载链接:
https://github.com/NEUIR/M2RAG
下载链接
链接失效反馈
资源简介:
M2RAG基准测试通过使用多模态检索文档来回答问题,评估多模态大语言模型(MLLMs)。它包括四个任务:图像描述、多模态问答、事实验证和图像重新排序,评估MLLMs利用多模态上下文知识的能力。
创建时间:
2025-02-19
原始信息汇总

M2RAG 数据集概述

数据集简介

  • 数据集名称:M2RAG
  • 数据集用途:评估多模态大型语言模型(MLLMs)在利用多模态检索文档回答问题方面的能力。
  • 包含任务:图像字幕、多模态问答、事实验证、图像重排。

数据集构成

  • 数据结构:数据集分为四个任务文件夹,包含对应的训练和测试数据。

    data/ └──m2rag/ ├──fact_verify/ ├──image_cap/ ├──image_rerank/ ├──mmqa/ ├──imgs.lineidx.new └──imgs.tsv

使用要求

  • 环境要求:Python 3.10,Pytorch,Transformers,Clip,Faiss,Tqdm,Numpy,Base64,Diffusers,Flash-Attn,Llamafactory,Accelerate,Nltk,Rouge Score,Sklearn。
  • 预训练模型:MiniCPM-V 2.6,Qwen2-VL,VISTA。

数据集获取

  • 下载方式:使用 git clone 命令下载项目代码,从 Hugging Face 或按照说明逐步构建数据集。
  • 数据链接M2RAG,图像数据从 Google Drive 下载。

使用说明

  • 零样本设置:提供脚本进行编码、检索、推理等步骤。
  • 模型训练:提供脚本进行训练数据准备、模型微调、推理等步骤。

评估方法

  • 评估脚本:根据任务类型使用不同的评估脚本进行模型性能评估。

联系方式

  • 联系方式:zhuxingsheng@stumail.neu.edu.cn,zhoutianshuo@stumail.neu.edu.cn。

引用信息

  • 论文引用:Liu, Zhenghao, et al. "Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts." arXiv preprint arXiv:2502.17297 (2025 Mar 2025).
AI搜集汇总
数据集介绍
main_image_url
构建方式
M2RAG数据集的构建采取多模态检索与生成相结合的方式,旨在评估多模态大型语言模型(MLLMs)在利用多模态检索文档回答问题方面的能力。该数据集涵盖图像字幕、多模态问答、事实验证和图像重排四项任务,通过这些任务全面评估MLLMs对多模态情境知识的运用效能。
使用方法
使用M2RAG数据集,用户需要先安装指定的环境依赖包,并准备预训练模型。数据集可以通过直接下载使用,或按照指导步骤逐步构建。使用时,用户可以按照脚本指导进行零样本设置下的推理,也可以通过训练MM-RAIT方法对模型进行微调,进而进行推理评估。评估模型性能时,根据不同的任务类型,调用相应的评估脚本进行效果评估。
背景与挑战
背景概述
M2RAG数据集,全称为Multi-modal Retrieval-Augmented Generation,是一项针对多模态大型语言模型(MLLMs)的基准测试。该数据集由刘振浩、朱星胜等研究人员于2025年创建,旨在评估MLLMs在利用多模态检索文档回答问题方面的能力。M2RAG包含四个任务:图像标题生成、多模态问答、事实验证和图像重排,以此来评估MLLMs在多模态环境中的知识运用效能。该数据集的创建,对多模态信息处理领域产生了重要影响,为相关研究提供了宝贵的实验资源。
当前挑战
M2RAG数据集在构建和应用过程中面临的挑战主要包括:1) 多模态信息融合的复杂性,如何在不同的模态间有效整合和利用信息;2) 大规模多模态数据集的构建难度,涉及数据的收集、处理和标注;3) 模型在实际应用中的泛化能力,特别是在处理未见过的多模态场景时的表现;4) 评估指标的选择和定义,如何全面、准确地衡量模型在多模态任务上的性能。
常用场景
经典使用场景
M2RAG数据集针对多模态大语言模型进行了评估,其经典使用场景在于利用多模态检索文档回答问题。该数据集涵盖了图像字幕、多模态问答、事实核查和图像重排等四个任务,全面评估模型在多模态环境中的知识运用能力。
解决学术问题
M2RAG数据集解决了多模态大语言模型在处理实际任务时如何有效利用多模态上下文知识的问题。通过提供多模态检索增强的指令微调方法(MM-RAIT),该数据集帮助研究者们提升了模型在多模态环境下的表现,为学术研究提供了新的视角和方法。
实际应用
在实际应用中,M2RAG数据集的应用场景广泛,例如,可以用于智能图像标注、多模态信息检索、交互式多模态问答系统等,为人工智能技术在多模态交互领域的应用提供了丰富的实验基础和数据支持。
数据集最近研究
最新研究方向
M2RAG数据集为评估多模态大型语言模型(MLLMs)利用多模态检索文档回答问题的能力提供了基准。该数据集包含图像字幕、多模态问答、事实验证和图像重排任务,旨在测试MLLMs在多模态环境中利用知识的能力。此外,研究团队提出的MM-RAIT方法进一步适应多模态上下文中的指令微调,提高了模型利用检索文档知识的效果。该研究方向的成果为多模态信息处理领域带来了新的视角,对提升多模态语言模型的性能具有重要的理论和实践意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录