MIRA

github2025-11-06 更新2025-11-07 收录

下载链接：

https://github.com/aiming-lab/MIRA

下载链接

链接失效反馈

官方服务：

资源简介：

MIRA（多模态想象推理评估）是一个评估视觉思维链推理的基准测试，包含546个精心策划的项目，涵盖几何、物理推理、空间/逻辑谜题和因果变换等四个领域的20种任务类型，支持直接、文本思维链和视觉思维链三种评估模式

MIRA (Multimodal Imagined Reasoning Assessment) is a benchmark for evaluating visual chain-of-thought reasoning. It comprises 546 carefully curated items, covering 20 task types across four domains including geometry, physical reasoning, spatial/logical puzzles, and causal transformations, and supports three evaluation modes: direct assessment, text-based chain-of-thought, and visual chain-of-thought.

创建时间：

2025-11-06

原始信息汇总

MIRA 数据集概述

数据集基本信息

名称: MIRA (Multimodal Imagination for Reasoning Assessment)
目标: 评估多模态大语言模型在绘图时进行推理的能力，即生成和使用中间视觉表示（草图、图表、轨迹）作为推理过程的一部分
核心概念: 视觉思维链推理，不仅限于纯文本思维链

数据集规模与构成

样本数量: 546个精心策划的项目
覆盖领域: 4个主要领域
任务类型: 涵盖20种任务类型
具体领域: 几何、物理类推理、空间/逻辑谜题、因果变换

评估模式

直接评估: 图像 + 问题
文本思维链评估: 包含文本推理过程
视觉思维链评估: 包含黄金标准思维链图像

数据格式

格式: JSON Lines (jsonl)
字段结构:
- uid (int): 样本唯一标识符
- image_path (string): 输入图像文件的相对或绝对路径
- question (string): 与图像关联的自然语言提示
- answer (int|string): 黄金标准最终答案（数值或字符串）

数据获取方式

python from datasets import load_dataset dataset = load_dataset("YiyangAiLab/MIRA", "billiards")

或 python from datasets import load_dataset dataset = load_dataset("YiyangAiLab/MIRA")

评估方法

支持模型: 开源模型（Qwen2.5-VL）和闭源模型（GPT、Gemini、Claude等）
评估指标: 精确匹配和MLLMs判断
评估命令:
- 精确匹配: python acc.py -r outputs/mira_api_runs
- 精确匹配 + MLLMs判断: python acc.py -r outputs/mira_api_runs --use-llm-judge -w 8

相关资源

论文: https://arxiv.org/abs/2511.02779
主页: https://mira-benchmark.github.io/
数据集: https://huggingface.co/datasets/YiyangAiLab/MIRA

搜集汇总

数据集介绍

构建方式

在视觉推理研究领域，MIRA数据集通过精心设计的流程构建而成，涵盖几何、物理推理、空间逻辑谜题及因果变换四大领域的二十种任务类型。该数据集包含五百四十六个高质量样本，每个样本均包含输入图像、自然语言问题及标准答案，构建过程中特别注重视觉思维链的标注，为多模态推理提供了结构化基础。

使用方法

研究人员可通过Hugging Face平台直接加载MIRA数据集，支持按领域或整体调用。评估流程兼容开源与闭源多模态大模型，提供精确匹配和LLM辅助评判两种验证模式。用户配置API参数后，可自动生成模型响应并计算准确率，完整复现论文中的实验设置，推动视觉推理技术的标准化发展。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态推理能力成为关键瓶颈。2025年，由YiyangAiLab等机构联合发布的MIRA基准，开创性地将视觉链式思维引入评估体系，通过546个涵盖几何推理、物理模拟等四大领域的任务，检验模型能否通过绘制草图、轨迹等中间视觉表征进行逻辑推演。这一基准突破了传统文本链式思维的局限，为多模态大语言模型的认知能力评估建立了新范式。

当前挑战

该数据集直面多模态推理中视觉思维具象化的核心难题：既要解决几何变换、因果推断等复杂场景的符号 grounding 问题，又需克服标注过程中视觉思维轨迹标准化记录的挑战。构建时需平衡任务多样性与时序逻辑一致性，同时确保黄金视觉标注能准确反映人类推理路径，这对标注者的跨模态理解能力提出了极高要求。

常用场景

经典使用场景

在视觉推理研究领域，MIRA数据集被广泛用于评估多模态大语言模型在生成和利用中间视觉表示（如草图、图表和轨迹）进行推理的能力。该数据集涵盖几何、物理推理、空间逻辑谜题和因果转换等20种任务类型，通过提供直接回答、文本思维链和视觉思维链三种评估模式，系统检验模型是否能够通过绘制过程实现有效推理。

解决学术问题

该数据集有效解决了传统文本思维链在复杂多模态推理任务中的局限性，推动了视觉思维链理论框架的发展。通过构建包含546个精心设计样本的评估体系，MIRA为量化模型在视觉推理过程中的认知能力提供了标准化的测量工具，显著提升了多模态推理研究的可复现性和可比性，对认知科学与人工智能的交叉研究具有重要启示意义。

实际应用

在教育技术领域，MIRA可作为智能辅导系统的核心评估组件，帮助诊断学生在几何证明、物理现象分析等课程中的思维过程。工业界则将其应用于机器人路径规划、工程设计草图生成等需要视觉推理支持的场景，通过验证模型在空间关系理解和因果推断方面的能力，为自动化系统的决策可靠性提供保障。

数据集最近研究