MMRB

github2025-05-31 更新2025-06-01 收录

下载链接：

https://github.com/LesterGong/MMRB

下载链接

链接失效反馈

官方服务：

资源简介：

多模态多图像推理基准（MMRB）是第一个设计用于评估跨多个图像的结构化视觉推理的基准。MMRB包含4,750个样本，涵盖92个子任务中的68,882个推理步骤，覆盖语义、空间和时间推理。

The Multimodal Multi-Image Reasoning Benchmark (MMRB) is the first benchmark designed to evaluate structured visual reasoning across multiple images. MMRB consists of 4,750 samples, covering 68,882 reasoning steps across 92 subtasks, and encompasses semantic, spatial, and temporal reasoning.

创建时间：

2025-05-28

原始信息汇总

MMRB: 多模态多图像推理基准数据集

数据集概述

名称: MMRB (MultiModal Multi-image Reasoning Benchmark)
类型: 多模态多图像推理评估基准
样本数量: 4,750个
推理步骤总数: 68,882步
子任务数量: 92个

核心特点

首个专注于多图像结构化视觉推理的基准
涵盖语义、空间和时间推理三大类型
每个任务包含多路径推理轨迹标注

数据构建流程

任务筛选与创建
- 调研22个多图像数据集，收集242个任务
- 筛选保留101个推理密集型任务
- 排除高难度数学问题以聚焦通用多图像理解
推理步骤标注
- 使用GPT-4o生成三种不同推理路径
- 六类推理步骤标注：
  - 任务理解
  - 信息基础
  - 常识寻求
  - 逻辑推理
  - 算术计算
  - 结论得出
人工审核与修正
- 17名标注员参与质量验证
- 25%样本至少修改一个推理步骤
- 7.5%样本修正最终答案

项目结构

MMRB/ ├── data_download/ # 数据下载脚本 ├── src/ # 源代码目录 │ ├── Annotation_Tool/ # 数据标注工具 │ ├── API_Model_Inference/ # API模型推理代码 │ ├── Data_Construction/ # 数据构建脚本 │ ├── Evaluate/ # 模型评估代码 │ ├── Open_Source_Model_Inference/ # 开源模型推理代码 │ └── Reward/ # 奖励模型代码 └── assets/ # 项目资源文件

快速开始

bash pip install datasets cd data_download python downloader.py

相关资源

搜集汇总

数据集介绍

构建方式

在多媒体推理研究领域，MMRB数据集的构建采用了严谨的三阶段流程。研究团队首先对22个多图像数据集进行系统调研，筛选出242项任务并按照语义、时空推理类型进行分类。基于GPT-4o的思维链提示技术，进一步精选101项核心推理任务作为标注基础。在标注阶段，通过多轮提示生成技术为每项任务构建三条独立推理路径，形成包含六类认知操作的细粒度标注体系。为确保数据质量，17名专业标注员对25%的推理步骤和7.5%的最终答案进行了人工校正，建立了具有多重验证机制的高质量基准。

使用方法

研究者可通过标准化流程快速部署MMRB评估体系。安装官方提供的datasets库后，执行下载脚本即可获取完整数据集。数据集采用层次化存储结构，包含原始数据、标注工具和评估模块三个核心组件。评估时支持API模型与开源模型两种推理模式，内置的奖励模型可自动生成细粒度性能报告。对于定制化研究，用户可灵活调用不同子任务模块，或基于提供的标注工具扩展新的推理轨迹，实现从基准测试到方法创新的无缝衔接。

背景与挑战

背景概述

MMRB（Multimodal Multi-image Reasoning Benchmark）作为首个专注于多图像结构化推理的基准测试数据集，由HarrytheOrange团队于2024年推出，旨在评估多模态大语言模型（MLLMs）在跨图像语义、空间及时间维度的复杂推理能力。该数据集基于对22个现有多图像数据集的系统调研，精选出101个核心推理任务，通过GPT-4o生成的链式思维标注构建了4,750个样本，涵盖68,882个标准化推理步骤。其创新性的六类认知操作分类体系（包括任务理解、信息锚定等）为多模态推理研究提供了细粒度评估框架，显著推动了跨图像认知智能的发展。

当前挑战

在解决多模态推理这一核心问题时，MMRB面临三大挑战：模型需同步处理异构视觉线索的语义关联、跨图像时空关系的动态建模，以及隐含常识的协同推理。数据构建过程中，标注复杂性尤为突出——尽管采用GPT-4o自动化生成推理链，仍有25%的样本需要人工修正推理步骤，7.5%的最终答案需人工纠错，反映出多路径推理标注的质量控制难题。此外，从242个原始任务筛选至92个子任务时，需平衡数学计算与通用推理的权重，这对基准测试的生态效度提出了更高要求。

常用场景

经典使用场景

在人工智能领域，多模态多图像推理任务正逐渐成为研究热点。MMRB数据集作为首个专门评估多图像结构化推理能力的基准测试，其经典使用场景在于系统评估多模态大语言模型（MLLMs）在跨图像语义理解、空间关系推理和时间序列分析等方面的表现。研究者可利用该数据集对模型进行端到端测试，通过92个子任务的丰富样本，深入分析模型在不同推理类型上的优劣势。

解决学术问题

MMRB数据集有效解决了多模态推理研究中的关键痛点。传统基准测试往往局限于单图像场景，难以评估模型处理复杂跨图像关系的能力。该数据集通过精心设计的68,882个推理步骤，为学术界提供了量化模型在语义关联、空间定位和时间推理等方面性能的标准工具。其层次化的任务分类体系，特别是对六类认知操作的细致划分，为理解模型推理机制提供了新的研究视角。

实际应用

该数据集的实际价值在智能教育、医疗影像分析等领域尤为突出。在教育场景中，基于MMRB开发的评估系统可精准诊断学生在多图表理解中的认知缺陷；医疗领域则可通过其时空推理任务，辅助医生分析系列医学影像的演变规律。数据集包含的多样化推理路径，也为构建可解释性更强的辅助决策系统提供了训练素材。

数据集最近研究