five

MMRB

收藏
github2025-05-31 更新2025-06-01 收录
下载链接:
https://github.com/LesterGong/MMRB
下载链接
链接失效反馈
官方服务:
资源简介:
多模态多图像推理基准(MMRB)是第一个设计用于评估跨多个图像的结构化视觉推理的基准。MMRB包含4,750个样本,涵盖92个子任务中的68,882个推理步骤,覆盖语义、空间和时间推理。

The Multimodal Multi-Image Reasoning Benchmark (MMRB) is the first benchmark designed to evaluate structured visual reasoning across multiple images. MMRB consists of 4,750 samples, covering 68,882 reasoning steps across 92 subtasks, and encompasses semantic, spatial, and temporal reasoning.
创建时间:
2025-05-28
原始信息汇总

MMRB: 多模态多图像推理基准数据集

数据集概述

  • 名称: MMRB (MultiModal Multi-image Reasoning Benchmark)
  • 类型: 多模态多图像推理评估基准
  • 样本数量: 4,750个
  • 推理步骤总数: 68,882步
  • 子任务数量: 92个

核心特点

  • 首个专注于多图像结构化视觉推理的基准
  • 涵盖语义、空间和时间推理三大类型
  • 每个任务包含多路径推理轨迹标注

数据构建流程

  1. 任务筛选与创建

    • 调研22个多图像数据集,收集242个任务
    • 筛选保留101个推理密集型任务
    • 排除高难度数学问题以聚焦通用多图像理解
  2. 推理步骤标注

    • 使用GPT-4o生成三种不同推理路径
    • 六类推理步骤标注:
      • 任务理解
      • 信息基础
      • 常识寻求
      • 逻辑推理
      • 算术计算
      • 结论得出
  3. 人工审核与修正

    • 17名标注员参与质量验证
    • 25%样本至少修改一个推理步骤
    • 7.5%样本修正最终答案

项目结构

MMRB/ ├── data_download/ # 数据下载脚本 ├── src/ # 源代码目录 │ ├── Annotation_Tool/ # 数据标注工具 │ ├── API_Model_Inference/ # API模型推理代码 │ ├── Data_Construction/ # 数据构建脚本 │ ├── Evaluate/ # 模型评估代码 │ ├── Open_Source_Model_Inference/ # 开源模型推理代码 │ └── Reward/ # 奖励模型代码 └── assets/ # 项目资源文件

快速开始

bash pip install datasets cd data_download python downloader.py

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体推理研究领域,MMRB数据集的构建采用了严谨的三阶段流程。研究团队首先对22个多图像数据集进行系统调研,筛选出242项任务并按照语义、时空推理类型进行分类。基于GPT-4o的思维链提示技术,进一步精选101项核心推理任务作为标注基础。在标注阶段,通过多轮提示生成技术为每项任务构建三条独立推理路径,形成包含六类认知操作的细粒度标注体系。为确保数据质量,17名专业标注员对25%的推理步骤和7.5%的最终答案进行了人工校正,建立了具有多重验证机制的高质量基准。
使用方法
研究者可通过标准化流程快速部署MMRB评估体系。安装官方提供的datasets库后,执行下载脚本即可获取完整数据集。数据集采用层次化存储结构,包含原始数据、标注工具和评估模块三个核心组件。评估时支持API模型与开源模型两种推理模式,内置的奖励模型可自动生成细粒度性能报告。对于定制化研究,用户可灵活调用不同子任务模块,或基于提供的标注工具扩展新的推理轨迹,实现从基准测试到方法创新的无缝衔接。
背景与挑战
背景概述
MMRB(Multimodal Multi-image Reasoning Benchmark)作为首个专注于多图像结构化推理的基准测试数据集,由HarrytheOrange团队于2024年推出,旨在评估多模态大语言模型(MLLMs)在跨图像语义、空间及时间维度的复杂推理能力。该数据集基于对22个现有多图像数据集的系统调研,精选出101个核心推理任务,通过GPT-4o生成的链式思维标注构建了4,750个样本,涵盖68,882个标准化推理步骤。其创新性的六类认知操作分类体系(包括任务理解、信息锚定等)为多模态推理研究提供了细粒度评估框架,显著推动了跨图像认知智能的发展。
当前挑战
在解决多模态推理这一核心问题时,MMRB面临三大挑战:模型需同步处理异构视觉线索的语义关联、跨图像时空关系的动态建模,以及隐含常识的协同推理。数据构建过程中,标注复杂性尤为突出——尽管采用GPT-4o自动化生成推理链,仍有25%的样本需要人工修正推理步骤,7.5%的最终答案需人工纠错,反映出多路径推理标注的质量控制难题。此外,从242个原始任务筛选至92个子任务时,需平衡数学计算与通用推理的权重,这对基准测试的生态效度提出了更高要求。
常用场景
经典使用场景
在人工智能领域,多模态多图像推理任务正逐渐成为研究热点。MMRB数据集作为首个专门评估多图像结构化推理能力的基准测试,其经典使用场景在于系统评估多模态大语言模型(MLLMs)在跨图像语义理解、空间关系推理和时间序列分析等方面的表现。研究者可利用该数据集对模型进行端到端测试,通过92个子任务的丰富样本,深入分析模型在不同推理类型上的优劣势。
解决学术问题
MMRB数据集有效解决了多模态推理研究中的关键痛点。传统基准测试往往局限于单图像场景,难以评估模型处理复杂跨图像关系的能力。该数据集通过精心设计的68,882个推理步骤,为学术界提供了量化模型在语义关联、空间定位和时间推理等方面性能的标准工具。其层次化的任务分类体系,特别是对六类认知操作的细致划分,为理解模型推理机制提供了新的研究视角。
实际应用
该数据集的实际价值在智能教育、医疗影像分析等领域尤为突出。在教育场景中,基于MMRB开发的评估系统可精准诊断学生在多图表理解中的认知缺陷;医疗领域则可通过其时空推理任务,辅助医生分析系列医学影像的演变规律。数据集包含的多样化推理路径,也为构建可解释性更强的辅助决策系统提供了训练素材。
数据集最近研究
最新研究方向
在人工智能领域,多模态大语言模型(MLLMs)的快速发展对复杂视觉推理任务提出了更高要求。MMRB作为首个专注于多图像结构化推理的基准测试,其最新研究聚焦于跨图像语义关联、时空推理等核心能力评估。该数据集通过构建包含68,882个推理步骤的4,750个样本,系统覆盖了视觉问答、事件时序分析、空间关系推断等92个子任务,为模型在开放域多图像理解中的认知能力提供了细粒度测评框架。当前研究热点集中于多模态思维链的自动生成与验证、跨图像注意力机制优化,以及如何通过该基准推动模型实现人类水平的复杂视觉推理。MMRB的发布填补了多图像联合推理评估体系的空白,对自动驾驶场景理解、医学影像分析等需要综合多视角信息的应用场景具有重要指导意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作