MM-K12

Name: MM-K12
Creator: 上海人工智能实验室; 上海创新研究院; 上海交通大学; 香港大学
Published: 2025-05-20 01:55:08
License: 暂无描述

arXiv2025-05-20 更新2025-05-21 收录

下载链接：

https://github.com/ModalMinds/MM-PRM

下载链接

链接失效反馈

官方服务：

资源简介：

MM-K12是一个包含10,000个多模态数学问题的数据集，这些问题均来自K-12教育领域，并具有可验证的答案。该数据集用于训练MM-PRM模型，该模型是一个过程奖励模型，旨在通过细粒度的监督来提高多模态数学推理的能力。MM-K12数据集是通过收集和整理高质量的数学问题构建的，并使用蒙特卡洛树搜索算法自动生成了超过700,000个步骤级别的标注，无需人工标注。该数据集为多模态数学推理领域提供了一个强大的数据基础，有助于训练和评估过程奖励模型，从而提高模型的推理质量和鲁棒性。

MM-K12 is a dataset consisting of 10,000 multimodal mathematical problems, all sourced from the K-12 education domain and accompanied by verifiable answers. This dataset is used to train the MM-PRM model, a process reward model that aims to improve multimodal mathematical reasoning capabilities via fine-grained supervision. The MM-K12 dataset is constructed by collecting and curating high-quality mathematical problems, with over 700,000 step-level annotations automatically generated using the Monte Carlo Tree Search algorithm, eliminating the need for manual annotation. This dataset provides a robust data foundation for the field of multimodal mathematical reasoning, facilitating the training and evaluation of process reward models, thereby improving the reasoning quality and robustness of such models.

提供机构：

上海人工智能实验室; 上海创新研究院; 上海交通大学; 香港大学

创建时间：

2025-05-20

原始信息汇总

MM-PRM数据集概述

数据集简介

名称：MM-PRM
类型：多模态过程奖励模型（PRM）实现及训练管道
核心内容：OmegaPRM的完整实现，包含自动化蒙特卡洛树搜索数据管道和训练流程
目标：生成可扩展的高质量多模态步骤级监督数据

关键特性

OmegaPRM数据管道
- 基于蒙特卡洛树搜索自动生成步骤级监督数据
- 支持并行数据生成
- 包含答案验证API端点设置
模型发布
- MM-PRM-8B：基于InternVL系列的多模态PRM模型
- 评估指标显示在K12（领域内）和OlympiadBench（领域外）基准上均优于随机基线

数据集结构

种子数据格式：JSON对象需包含字段： json { "id": "唯一标识符", "question": "问题描述", "correct_answer": "正确答案", "image_path": "图像路径" }

使用流程

环境安装
- 依赖安装：pip install -r requirements.txt
- Flash-attn安装：版本2.3.6
数据生成
- 种子数据集准备
- 运行OmegaPRM管道：sh run_omegaprm.sh
- 采样训练数据：python traverse.py和python prm_data_format.py
模型训练
- 配置文件格式： json { "your-custom-prm_dataset": { "root": "图像根路径", "annotation": "标注文件路径", "data_augment": false, "repeat_time": 1, "length": "样本数量" } }
- 启动训练：GPUS=8 sh shell/internvl2.5/2nd_finetune/internvl2_5_38b_dynamic_res_2nd_finetune_full_prm.sh

评估资源

评估代码位于eval/目录
公开模型：MM-PRM-8B

相关资源

博客：MM-PRM-Blog
引用格式： bibtex @misc{MM-PRM2025, title={MM-PRM: An open implementation of OmegaPRM and its corresponding training pipeline}, author={ModalMinds Team}, year={2025}, howpublished={url{https://github.com/ModalMinds/MM-PRM}}, }

搜集汇总

数据集介绍

构建方式

MM-K12数据集的构建过程体现了高度自动化和可扩展性的特点。研究团队首先从真实教育场景中精心筛选了10,000道K-12阶段的多模态数学题目作为种子数据，涵盖填空题和选择题两种题型。这些题目均经过严格验证，确保包含具有明确可验证答案的视觉-文本组合内容。随后采用蒙特卡洛树搜索(MCTS)算法构建自动化标注流程，通过策略模型生成候选推理路径，并基于分层展开策略评估中间步骤的正确性。该框架仅需初始种子问题即可自动生成超过70万条步骤级标注，完全避免了人工标注的介入。

特点

作为专为多模态数学推理设计的数据集，MM-K12展现出三个显著特征：其问题内容严格遵循K-12课程体系的知识图谱，覆盖从基础算术到几何证明的完整学习轨迹；每个样本均包含必须结合视觉元素（如图表、几何图形）与文本信息才能解决的复合型问题，体现了真正的多模态特性；数据集特别强调推理过程的可验证性，所有问题都设计有唯一确定的答案，并配备完整的中间步骤标注，为过程监督模型提供了细粒度的训练信号。

使用方法

该数据集主要服务于多模态过程奖励模型(PRM)的训练与评估。在使用时，研究者首先通过策略模型生成针对给定问题的多条推理路径，每条路径包含完整的中间推理步骤。随后MM-K12提供的步骤级标注可作为监督信号，训练模型对每个推理步骤的质量进行评分。在最佳N选1(Best-of-N)的推理框架下，这些评分用于筛选出逻辑最严密的解决方案。数据集附带的独立测试集可用于评估模型在分布内场景的推理能力，而其设计的视觉-文本耦合特性也支持模型在MathVista等跨领域基准上的泛化性能测试。

背景与挑战

背景概述

MM-K12数据集由上海人工智能实验室、上海交通大学等机构的研究团队于2025年提出，旨在解决多模态大语言模型在复杂数学推理中的逻辑一致性问题。该数据集包含10,000个经过严格筛选的K-12阶段多模态数学问题，涵盖填空与选择题型，每个问题均配有可验证答案及视觉输入。作为MM-PRM项目的基础数据，其创新性地采用蒙特卡洛树搜索算法自动生成70万步级标注，突破了传统人工标注的 scalability 瓶颈，显著提升了过程监督模型的训练效率。该数据集通过结构化推理链标注范式，为多模态数学推理领域建立了首个可扩展的细粒度评估基准，在MathVista等国际测评中推动模型准确率提升4.67个百分点。

当前挑战

构建MM-K12面临双重挑战：在领域问题层面，多模态数学推理需同步处理视觉符号与抽象逻辑的语义对齐，模型常产生步骤正确但最终错误的虚假推理链；在技术实现层面，传统人工标注难以应对数学问题专业性强、标注成本高的问题。研究团队通过三阶段框架突破限制：首先训练具备强推理能力的MM-Policy生成候选解，随后设计基于MCTS的自动化标注管道，最终利用动态更新的状态动作树实现错误步骤的精确定位。该过程中需平衡搜索深度与计算效率，控制探索系数cpuct=0.125以维持200搜索步长内的稳定标注质量，同时解决视觉信息在树搜索中的持续编码难题。

常用场景

经典使用场景

在人工智能领域，MM-K12数据集被广泛应用于多模态数学推理任务的研究中。该数据集通过提供细粒度的步骤级监督，显著提升了多模态大语言模型在复杂数学问题上的推理能力。研究者们利用该数据集训练过程奖励模型（PRM），以评估和优化模型在解决数学问题时的中间推理步骤，从而确保逻辑的一致性和正确性。

解决学术问题

MM-K12数据集解决了多模态数学推理中缺乏细粒度监督的关键问题。传统方法仅关注最终答案的正确性，而忽略了中间推理步骤的质量，导致模型在复杂推理任务中表现不佳。该数据集通过提供步骤级标注，使研究者能够训练过程奖励模型，从而显著提升了模型在逻辑一致性和推理准确性上的表现。这一突破为多模态推理领域的研究提供了新的方向和方法。

衍生相关工作

MM-K12数据集衍生了一系列经典研究工作，如MM-PRM（多模态过程奖励模型）和OmegaPRM框架的扩展应用。这些工作进一步推动了多模态推理领域的发展，例如MathShepherd和MiPS等项目，均借鉴了该数据集的方法论。此外，该数据集还激发了更多关于自动化步骤级监督生成的研究，为后续工作提供了重要的参考和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集