MMReason

Name: MMReason
Creator: 南洋理工大学, 清华大学, 百度公司, 加利福尼亚大学, 中国科学技术大学
Published: 2025-06-30 15:14:38
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://github.com/HJYao00/MMReason

下载链接

链接失效反馈

官方服务：

资源简介：

MMReason 是一个开放式的多模态多步推理基准数据集，旨在推动多模态大型语言模型（MLLMs）向通用人工智能（AGI）发展。该数据集包含来自不同学科（如数学、商业、科学、工程、社会科学和健康）的各种难度级别的挑战性问题，这些问题需要多步推理和批判性思维。为了确保推理的可靠性，数据集中的问题已被重新制定为开放式问题，并通过多模态投票技术进行筛选，以消除与猜测和记忆相关的捷径情况。此外，MMReason 还为每个问题提供了详细的分步解决方案，并设计了一个基于参考的三元评分机制，以可靠地评估 MLLMs 的中间推理步骤。

MMReason is an open-ended multimodal multi-step reasoning benchmark dataset designed to advance Multimodal Large Language Models (MLLMs) toward Artificial General Intelligence (AGI). This dataset comprises challenging questions spanning diverse difficulty levels across various disciplines, including mathematics, business, science, engineering, social sciences, and health, all of which require multi-step reasoning and critical thinking. To ensure the reliability of reasoning, the questions in this dataset have been reformulated into open-ended questions and screened via multimodal voting techniques to eliminate shortcut cases associated with guessing and memorization. Furthermore, MMReason provides detailed step-by-step solutions for each question, and has designed a reference-based tripartite scoring mechanism to reliably evaluate the intermediate reasoning steps of MLLMs.

提供机构：

南洋理工大学, 清华大学, 百度公司, 加利福尼亚大学, 中国科学技术大学

创建时间：

2025-06-30

原始信息汇总

MMReason: 开放型多模态多步推理基准数据集

数据集概述

名称：MMReason
全称：An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI
类型：多模态多步推理基准数据集
目标：面向通用人工智能(AGI)的多模态大语言模型(MLLMs)评估

关键特征

开放型问题设计
多模态输入支持
多步推理能力评估
面向AGI的基准测试

相关资源

论文发布日期：2025年7月1日
论文链接：https://arxiv.org/abs/2506.23563

搜集汇总

数据集介绍

构建方式

在构建MMReason数据集时，研究团队首先从现有基准测试中筛选出需要长链推理的题目，并进一步从互联网上收集涵盖不同教育阶段和难度级别的题目，覆盖数学、商业、科学等六个学科。为了消除猜测和记忆带来的评估偏差，团队采用开放式问题格式，并通过多模型投票技术过滤潜在的记忆题目。此外，每个问题均标注了详细的逐步解决方案，并设计了基于参考的三元评分机制，以确保对中间推理步骤的可靠评估。

特点

MMReason数据集以其多样性和挑战性著称，题目涵盖从大学预科到大学水平的不同难度层次，并横跨多个学科领域。其独特之处在于通过开放式问题格式和多模型投票技术，有效减少了猜测和记忆对评估的影响。此外，数据集提供了详细的逐步解决方案和三元评分机制，能够全面评估模型在长链推理中的中间步骤和最终答案生成能力。

使用方法

使用MMReason数据集时，研究人员可以将其作为评估多模态大语言模型长链推理能力的基准。通过输入开放式问题，模型需要生成详细的推理步骤和最终答案。评估过程中，利用数据集提供的参考解决方案，采用三元评分机制对每个中间步骤进行评分（正确、无法验证或错误）。最终答案的正确性则通过提取模型输出并与标准答案比对来确定。这种评估方法能够全面衡量模型在复杂多步推理任务中的表现。

背景与挑战

背景概述

MMReason是由南洋理工大学、清华大学、百度等机构的研究团队于2025年推出的多模态多步推理基准测试。该数据集针对当前多模态大语言模型（MLLMs）在长链推理能力评估中的不足，系统性地整合了数学、商业、科学等6大学科领域，涵盖从预科到大学竞赛级别的多难度层级问题。其创新性体现在采用开放式问题设计消除猜测偏差，通过多模型投票机制过滤记忆化数据，并首创基于参考解的三元评分体系对中间推理步骤进行细粒度评估。作为推动通用人工智能发展的重要工具，MMReason为衡量模型真实推理能力提供了首个覆盖学科广度与认知深度的标准化测试框架。

当前挑战

MMReason面临的核心挑战体现在评估维度与数据构建两个层面。在领域问题方面，需解决现有基准测试存在的三大局限：多选题形式导致的随机猜测问题（如MathVista数据集94%为选择题）、模型对训练数据的记忆性复现（如Qwen2-VL7B在去除选项后准确率骤降20.4%），以及缺乏对中间推理步骤的量化评估（现有基准仅关注最终答案正确性）。在构建过程中，研究团队需攻克跨学科知识整合的复杂性（如工程类问题需融合视觉信息与专业公式）、开放式问题语义唯一性校验（避免多解问题），以及通过蒙特卡洛树搜索等算法实现自动化中间步骤评分（当前依赖GPT-4o分解推理链）。

常用场景

经典使用场景

在人工智能领域，多模态大语言模型（MLLMs）的推理能力评估一直是研究热点。MMReason数据集通过其开放式的多模态多步推理问题，为研究者提供了一个全面评估MLLMs长链推理能力的平台。其经典使用场景包括模型在数学、商业、科学、工程、社会科学和健康等六个学科中的复杂问题解决能力测试。这些问题不仅覆盖了从大学预科到大学水平的不同难度层次，还通过多步推理和视觉-文本交互的设计，确保了评估的全面性和挑战性。

衍生相关工作

MMReason数据集的推出衍生了一系列相关研究工作。例如，基于其开放式问题设计，研究者开发了新的推理增强技术，如链式思维（Chain-of-Thought）和蒙特卡洛树搜索（MCTS）方法。此外，数据集的多元评分机制也启发了更多关于中间步骤评估的研究，如参考基于的三元评分系统的进一步优化。这些工作不仅推动了MLLMs推理能力的提升，也为多模态推理研究开辟了新的方向。

数据集最近研究