five

MM-K12

收藏
arXiv2025-05-20 更新2025-05-21 收录
下载链接:
https://github.com/ModalMinds/MM-PRM
下载链接
链接失效反馈
资源简介:
MM-K12是一个包含10,000个多模态数学问题的数据集,这些问题均来自K-12教育领域,并具有可验证的答案。该数据集用于训练MM-PRM模型,该模型是一个过程奖励模型,旨在通过细粒度的监督来提高多模态数学推理的能力。MM-K12数据集是通过收集和整理高质量的数学问题构建的,并使用蒙特卡洛树搜索算法自动生成了超过700,000个步骤级别的标注,无需人工标注。该数据集为多模态数学推理领域提供了一个强大的数据基础,有助于训练和评估过程奖励模型,从而提高模型的推理质量和鲁棒性。

MM-K12 is a dataset consisting of 10,000 multimodal mathematical problems, all sourced from the K-12 education domain and paired with verifiable answers. This dataset is designed for training the MM-PRM model, a process reward model that aims to enhance multimodal mathematical reasoning capabilities through fine-grained supervision. The MM-K12 dataset is constructed by collecting and curating high-quality mathematical problems, with over 700,000 step-level annotations automatically generated via the Monte Carlo Tree Search algorithm, eliminating the need for manual annotation. This dataset offers a powerful data foundation for the field of multimodal mathematical reasoning, supporting the training and evaluation of process reward models to improve the reasoning quality and robustness of such models.
提供机构:
上海人工智能实验室; 上海创新研究院; 上海交通大学; 香港大学
创建时间:
2025-05-20
原始信息汇总

MM-PRM数据集概述

数据集简介

  • 名称:MM-PRM
  • 类型:多模态过程奖励模型(PRM)实现及训练管道
  • 核心内容:OmegaPRM的完整实现,包含自动化蒙特卡洛树搜索数据管道和训练流程
  • 目标:生成可扩展的高质量多模态步骤级监督数据

关键特性

  1. OmegaPRM数据管道

    • 基于蒙特卡洛树搜索自动生成步骤级监督数据
    • 支持并行数据生成
    • 包含答案验证API端点设置
  2. 模型发布

    • MM-PRM-8B:基于InternVL系列的多模态PRM模型
    • 评估指标显示在K12(领域内)和OlympiadBench(领域外)基准上均优于随机基线

数据集结构

  • 种子数据格式:JSON对象需包含字段: json { "id": "唯一标识符", "question": "问题描述", "correct_answer": "正确答案", "image_path": "图像路径" }

使用流程

  1. 环境安装

    • 依赖安装:pip install -r requirements.txt
    • Flash-attn安装:版本2.3.6
  2. 数据生成

    • 种子数据集准备
    • 运行OmegaPRM管道:sh run_omegaprm.sh
    • 采样训练数据:python traverse.pypython prm_data_format.py
  3. 模型训练

    • 配置文件格式: json { "your-custom-prm_dataset": { "root": "图像根路径", "annotation": "标注文件路径", "data_augment": false, "repeat_time": 1, "length": "样本数量" } }

    • 启动训练:GPUS=8 sh shell/internvl2.5/2nd_finetune/internvl2_5_38b_dynamic_res_2nd_finetune_full_prm.sh

评估资源

  • 评估代码位于eval/目录
  • 公开模型:MM-PRM-8B

相关资源

  • 博客:MM-PRM-Blog
  • 引用格式: bibtex @misc{MM-PRM2025, title={MM-PRM: An open implementation of OmegaPRM and its corresponding training pipeline}, author={ModalMinds Team}, year={2025}, howpublished={url{https://github.com/ModalMinds/MM-PRM}}, }
AI搜集汇总
数据集介绍
main_image_url
构建方式
MM-K12数据集的构建过程体现了高度自动化和可扩展性的特点。研究团队首先从真实教育场景中精心筛选了10,000道K-12阶段的多模态数学题目作为种子数据,涵盖填空题和选择题两种题型。这些题目均经过严格验证,确保包含具有明确可验证答案的视觉-文本组合内容。随后采用蒙特卡洛树搜索(MCTS)算法构建自动化标注流程,通过策略模型生成候选推理路径,并基于分层展开策略评估中间步骤的正确性。该框架仅需初始种子问题即可自动生成超过70万条步骤级标注,完全避免了人工标注的介入。
特点
作为专为多模态数学推理设计的数据集,MM-K12展现出三个显著特征:其问题内容严格遵循K-12课程体系的知识图谱,覆盖从基础算术到几何证明的完整学习轨迹;每个样本均包含必须结合视觉元素(如图表、几何图形)与文本信息才能解决的复合型问题,体现了真正的多模态特性;数据集特别强调推理过程的可验证性,所有问题都设计有唯一确定的答案,并配备完整的中间步骤标注,为过程监督模型提供了细粒度的训练信号。
使用方法
该数据集主要服务于多模态过程奖励模型(PRM)的训练与评估。在使用时,研究者首先通过策略模型生成针对给定问题的多条推理路径,每条路径包含完整的中间推理步骤。随后MM-K12提供的步骤级标注可作为监督信号,训练模型对每个推理步骤的质量进行评分。在最佳N选1(Best-of-N)的推理框架下,这些评分用于筛选出逻辑最严密的解决方案。数据集附带的独立测试集可用于评估模型在分布内场景的推理能力,而其设计的视觉-文本耦合特性也支持模型在MathVista等跨领域基准上的泛化性能测试。
背景与挑战
背景概述
MM-K12数据集由上海人工智能实验室、上海交通大学等机构的研究团队于2025年提出,旨在解决多模态大语言模型在复杂数学推理中的逻辑一致性问题。该数据集包含10,000个经过严格筛选的K-12阶段多模态数学问题,涵盖填空与选择题型,每个问题均配有可验证答案及视觉输入。作为MM-PRM项目的基础数据,其创新性地采用蒙特卡洛树搜索算法自动生成70万步级标注,突破了传统人工标注的 scalability 瓶颈,显著提升了过程监督模型的训练效率。该数据集通过结构化推理链标注范式,为多模态数学推理领域建立了首个可扩展的细粒度评估基准,在MathVista等国际测评中推动模型准确率提升4.67个百分点。
当前挑战
构建MM-K12面临双重挑战:在领域问题层面,多模态数学推理需同步处理视觉符号与抽象逻辑的语义对齐,模型常产生步骤正确但最终错误的虚假推理链;在技术实现层面,传统人工标注难以应对数学问题专业性强、标注成本高的问题。研究团队通过三阶段框架突破限制:首先训练具备强推理能力的MM-Policy生成候选解,随后设计基于MCTS的自动化标注管道,最终利用动态更新的状态动作树实现错误步骤的精确定位。该过程中需平衡搜索深度与计算效率,控制探索系数cpuct=0.125以维持200搜索步长内的稳定标注质量,同时解决视觉信息在树搜索中的持续编码难题。
常用场景
经典使用场景
在人工智能领域,MM-K12数据集被广泛应用于多模态数学推理任务的研究中。该数据集通过提供细粒度的步骤级监督,显著提升了多模态大语言模型在复杂数学问题上的推理能力。研究者们利用该数据集训练过程奖励模型(PRM),以评估和优化模型在解决数学问题时的中间推理步骤,从而确保逻辑的一致性和正确性。
解决学术问题
MM-K12数据集解决了多模态数学推理中缺乏细粒度监督的关键问题。传统方法仅关注最终答案的正确性,而忽略了中间推理步骤的质量,导致模型在复杂推理任务中表现不佳。该数据集通过提供步骤级标注,使研究者能够训练过程奖励模型,从而显著提升了模型在逻辑一致性和推理准确性上的表现。这一突破为多模态推理领域的研究提供了新的方向和方法。
衍生相关工作
MM-K12数据集衍生了一系列经典研究工作,如MM-PRM(多模态过程奖励模型)和OmegaPRM框架的扩展应用。这些工作进一步推动了多模态推理领域的发展,例如MathShepherd和MiPS等项目,均借鉴了该数据集的方法论。此外,该数据集还激发了更多关于自动化步骤级监督生成的研究,为后续工作提供了重要的参考和基准。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作