MIR
收藏arXiv2025-09-21 更新2025-09-24 收录
下载链接:
https://github.com/auo-elseeethel/MIR
下载链接
链接失效反馈官方服务:
资源简介:
MIR数据集是一个专注于多图像交错推理的基准,包含22,257个图像文本交错问答对,涵盖12个不同的场景。该数据集旨在增强多模态大语言模型(MLLMs)在复杂多模态场景中的理解和表现,通过分析复杂的图像文本关系来实现。MIR数据集包括138,277张图像,平均每个实例包含六张图像。为了提高MLLMs的多图像交错数据理解能力,MIR数据集为每个实例配备了五个系统化和结构化的推理步骤:摘要、标题、文本到区域引用、区域到区域关系、结论。基于推理步骤,MIR数据集还提出了一种阶段式课程学习方法,该方法优先训练简单样本,并逐步引入更难的任务,从而引导MLLMs从“简单”到“困难”逐步掌握复杂的推理过程。
The MIR Dataset is a benchmark dedicated to interleaved multi-image reasoning, containing 22,257 image-text interleaved question-answer pairs spanning 12 distinct scenarios. This dataset is designed to enhance the understanding and performance of multimodal large language models (MLLMs) in complex multimodal scenarios through the analysis of intricate image-text relationships. The MIR Dataset comprises 138,277 images, with an average of six images per instance. To improve the multi-image interleaved data understanding capability of MLLMs, the MIR Dataset equips each instance with five systematic and structured reasoning steps: summary, captioning, text-to-region reference, region-to-region relationship, and conclusion. Based on these reasoning steps, the MIR Dataset also proposes a staged curriculum learning approach, which prioritizes training on simple samples and gradually introduces more challenging tasks, thereby guiding MLLMs to master complex reasoning processes progressively from "easy" to "hard".
提供机构:
北京邮电大学, 南洋理工大学
创建时间:
2025-09-21
搜集汇总
数据集介绍

构建方式
MIR数据集的构建采用多源采集策略,涵盖研究团队自主拍摄的原始影像、短视频平台的公开内容以及开放教育资源,确保数据来源的多样性和合规性。通过半自动化流程生成问答对,针对空间任务开发三维几何平台生成多视角投影,时序任务依赖视频帧提取与物体位置变化计算,分析任务则结合网络爬取和文本生成图像技术。每个实例配备五步结构化推理步骤,包括摘要、图像描述、文本-区域对齐、区域间关系推导及结论生成,并通过人工与大型语言模型协同标注保证逻辑严谨性。
特点
MIR数据集聚焦多图像交错推理任务,包含138,277张图像和22,257道多选题,平均每个实例涉及六张图像,规模居同类基准之首。其核心特点在于将任务划分为空间、时序和分析三大类别,并细化为12个子场景,如透视关系、运动检测和图表分析等,全面覆盖真实场景中的复杂推理需求。数据集通过文本-区域对齐和区域间关系推理两个关键挑战,要求模型在交错图文序列中建立跨模态关联,并配备完整的推理步骤链,支持从易到难的渐进式学习范式。
使用方法
该数据集通过阶段性课程学习策略优化多模态大语言模型的推理能力。首先基于自适应难度过滤器将样本分为简单与困难两类,模型先在简单样本上微调以建立基础理解。随后分阶段引入困难样本,逐步减少推理步骤的引导:初始阶段将问题与全部推理步骤拼接作为输入,后续阶段依次将区域关系、文本对齐等步骤移至输出目标,最终使模型仅凭原始问题自主生成完整推理链。该方法在领域内外基准测试中显著提升了模型的泛化性能和结构化推理一致性。
背景与挑战
背景概述
多模态大语言模型在视觉语言理解领域展现出卓越潜力,然而传统基准主要聚焦于单图像或非交错多图像任务,难以应对现实世界中图像与文本交错组合的复杂场景。2025年,北京邮电大学与南洋理工大学联合团队推出MIR基准,旨在推动交错多图像推理研究。该数据集包含22,257个多选问题与138,277张图像,覆盖空间关系、时序逻辑与抽象分析三大类任务,通过结构化五步推理机制引导模型建立跨模态关联。MIR的构建填补了多图像交错推理评估体系的空白,为多模态模型在新闻媒体、社交平台等实际应用场景中的深度理解提供了重要支撑。
当前挑战
MIR基准直面多图像交错推理中的核心难题:其一,模型需精准实现文本到区域的映射,即在交错文本中识别显式与隐式对象并将其关联至对应图像区域;其二,需建立区域间逻辑链条,通过跨图像对比与推理推导最终结论。构建过程中面临三重挑战:数据采集需规避版权风险与敏感内容,通过原创拍摄与合规平台获取多源素材;问答生成需平衡自动化效率与逻辑严谨性,结合模板化与LLM生成策略;推理步骤标注需融合人工专家知识与模型辅助,确保步骤逻辑的连贯性与错误可控性。
常用场景
经典使用场景
在多媒体内容理解领域,MIR数据集通过交错排列的多图像与文本序列,为多模态大语言模型提供了联合推理的标准化测试平台。其典型应用场景包括模型对复杂视觉文本关系的逐步解析,例如在社交媒体内容分析中,模型需要同时处理六张平均分布的图像及其穿插的文本描述,通过文本到区域对齐和区域间关系推断两个关键步骤,完成对隐含逻辑链的还原。这种结构化推理流程能够有效评估模型在真实场景下处理图文混合信息流的综合能力。
实际应用
在实际应用层面,MIR数据集支撑的模型能力可直接迁移至新闻媒体内容生产、教育课件智能生成等场景。例如在数字出版领域,系统需对包含强制透视、尺度模糊等特殊视觉效果的图文混排内容进行语义解析,通过区域关系推理准确还原作者意图。在智能教学系统中,模型可基于烹饪过程或三维几何体的多视角图像序列,生成符合认知规律的步骤化讲解,显著提升知识传递的准确性与连贯性。
衍生相关工作
该数据集已催生多项创新性研究,如基于课程学习的渐进式训练框架,通过自适应难度过滤机制将样本划分为简单与挑战两类,采用五阶段训练策略逐步引导模型掌握复杂推理。相关衍生工作包括BLINK基准的视觉感知能力增强、LLaVA-NEXT-Interleave的跨模态架构优化等。这些研究共同推动了多模态模型在文本-图像对齐精度、推理链一致性等方面的突破,为后续工作提供了可复现的实验范式。
以上内容由遇见数据集搜集并总结生成



