We-Math 2.0

github2025-08-15 更新2025-08-16 收录

下载链接：

https://github.com/We-Math/We-Math2.0

下载链接

链接失效反馈

官方服务：

资源简介：

We-Math 2.0是一个统一的系统，旨在全面增强多模态大型语言模型（MLLMs）的数学推理能力。它集成了一个结构化的数学知识系统、以模型为中心的数据空间建模和基于强化学习（RL）的训练范式，以实现广泛的概念覆盖和在不同难度级别上的稳健推理性能。关键贡献包括：1. MathBook知识系统——一个五级层次结构，涵盖491个知识点和1,819个基本原理；2. MathBook-Standard和MathBook-Pro——MathBook-Standard通过双重扩展确保广泛的概念覆盖和灵活性，而MathBook-Pro定义了一个三维难度空间，并为每个问题生成7个渐进变体以进行稳健训练；3. MathBook-RL——一个两阶段RL框架，包括冷启动微调以进行知识导向的链。

We-Math 2.0 is a unified system designed to comprehensively enhance the mathematical reasoning capabilities of multimodal large language models (MLLMs). It integrates a structured mathematical knowledge system, model-centric data space modeling, and reinforcement learning (RL)-based training paradigm to achieve extensive conceptual coverage and robust reasoning performance across diverse difficulty levels. The key contributions include: 1. The MathBook knowledge system—a five-level hierarchy encompassing 491 knowledge points and 1,819 fundamental principles; 2. MathBook-Standard and MathBook-Pro—MathBook-Standard ensures broad conceptual coverage and flexibility through dual expansion, while MathBook-Pro defines a three-dimensional difficulty space and generates seven progressive variants for each problem to facilitate robust training; 3. MathBook-RL—a two-stage RL framework that includes cold-start fine-tuning for knowledge-guided reasoning chains.

创建时间：

2025-08-14

原始信息汇总

We-Math 2.0 数据集概述

基本信息

名称: We-Math 2.0
类型: 数学推理数据集
许可证: CC BY-NC 4.0
相关论文: We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
发布日期: 2025年8月15日

数据集组成

MathBook-Standard: 提供广泛的概念覆盖和灵活性，包含多图像问题和多问题图像。
MathBook-Pro: 引入三维难度建模框架，每个种子问题扩展为七个渐进难度级别。

关键特点

MathBook知识系统:
- 五级层次结构，涵盖491个知识点和1,819个基本原理。
- 系统来源于维基百科和开源教科书，经过人工专家修订。
MathBook-Standard:
- 双扩展策略：多图像问题和多问题图像。
- 促进概念灵活性和适应性。
MathBook-Pro:
- 三维难度建模框架：
  - 步骤复杂性（推理深度）
  - 视觉复杂性（辅助元素）
  - 上下文复杂性（语义需求）

方法论

冷启动微调阶段:
- 使用MathBook-Standard进行监督微调。
渐进对齐强化学习:
- 预对齐RL（MathBook-Standard）
- 动态调度RL（MathBook-Pro）

快速开始

冷启动SFT阶段:
- 环境设置：使用ms-swift库。
- 微调：下载MathBook-SFT数据集并运行提供的脚本。
渐进对齐RL:
- 环境设置：安装附加依赖。
- 训练：下载MathBook-Standard和MathBook-Pro数据集并运行相应脚本。

评估

MathBookEval: 涵盖所有491个知识点的综合基准测试。

引用

bibtex @misc{qiao2025wemath20versatilemathbook, title={We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning}, author={Runqi Qiao and Qiuna Tan and Peiqing Yang and Yanzi Wang and Xiaowan Wang and Enhui Wan and Sitong Zhou and Guanting Dong and Yuchen Zeng and Yida Xu and Jie Wang and Chong Sun and Chen Li and Honggang Zhang}, year={2025}, eprint={2508.10433}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.10433}, }

联系方式

邮箱: qrq@bupt.edu.cn 或 qiunatan@bupt.edu.cn

搜集汇总

数据集介绍

构建方式

We-Math 2.0数据集通过系统化的知识体系构建和模型中心化的数据空间建模，实现了数学推理能力的全面提升。其核心构建方法包括五层级的数学知识体系，涵盖491个知识点和1819个基本原理，这些内容源自维基百科和开源教材，并经过专家修订。数据集采用双扩展策略，包括多图像问题和多问题图像，以增强概念的灵活性和适应性。此外，MathBook-Pro通过三维难度建模框架，将每个种子问题扩展为七个渐进难度级别，覆盖步骤复杂性、视觉复杂性和上下文复杂性。

特点

We-Math 2.0数据集的特点在于其全面的知识覆盖和渐进式难度设计。MathBook-Standard通过多图像和多问题的双扩展策略，确保了广泛的数学领域覆盖，尤其关注了传统 underrepresented 领域。MathBook-Pro则通过三维难度模型（步骤、视觉和上下文复杂性）为每个问题生成七个变体，支持模型在不同难度级别上的逐步学习。数据集还提供了详细的原理级知识标注和多样化的推理步骤分布，为多模态大语言模型的数学推理能力提供了坚实的训练基础。

使用方法

We-Math 2.0数据集的使用分为冷启动微调阶段和渐进对齐强化学习阶段。冷启动阶段通过监督微调（SFT）在MathBook-Standard上进行，涵盖所有491个知识点，以建立知识驱动的链式推理能力。渐进对齐阶段则采用强化学习（RL）框架，包括预对齐RL和动态调度RL。预对齐RL使用MathBook-Standard，通过平均奖励机制增强推理一致性；动态调度RL则利用MathBook-Pro的渐进难度变体，通过知识增量调度和模态增量调度，逐步提升模型在复杂场景下的表现。用户可通过Hugging Face下载数据集，并参考提供的脚本进行训练和评估。

背景与挑战

背景概述

We-Math 2.0是由北京邮电大学等机构的研究团队于2025年推出的多模态数学推理数据集，旨在提升多模态大语言模型在视觉数学推理任务中的表现。该数据集基于系统化的数学知识体系构建，包含491个知识点和1819条基本原理，覆盖广泛的数学领域。其核心研究问题聚焦于如何通过结构化知识表示和渐进式强化学习框架，解决复杂数学问题的多模态理解和推理挑战。We-Math 2.0的创新性体现在其五层知识体系架构和三维难度建模框架，为数学推理领域的研究提供了新的基准和范式。

当前挑战

We-Math 2.0主要应对视觉数学推理中的三个关键挑战：多模态信息融合、复杂推理链建模以及知识驱动的渐进式学习。在构建过程中，研究团队需要解决知识体系结构化、问题难度量化以及数据多样性平衡等难题。具体而言，如何将几何图形、代数符号等不同模态信息有效关联，如何设计包含多步推理的复杂数学问题，以及如何确保数据集中各知识点的均衡覆盖，都是该数据集开发过程中的重要挑战。此外，动态调度强化学习框架的实现需要精确控制难度维度的渐进变化，这对算法设计和数据标注都提出了较高要求。

常用场景

经典使用场景

在数学推理领域，We-Math 2.0数据集通过其结构化的数学知识系统和多模态问题设计，成为评估和提升多模态大语言模型（MLLMs）数学推理能力的经典工具。其MathBook-Standard和MathBook-Pro子集分别覆盖广泛的数学概念和不同难度级别的问题，为模型训练提供了全面的基准。研究者常利用该数据集进行监督微调（SFT）和强化学习（RL）训练，以验证模型在视觉数学推理任务中的表现。

实际应用

在实际应用中，We-Math 2.0被广泛应用于智能教育系统和数学辅助工具的开发。教育科技公司利用其多图像-多问题的设计模式，构建能够自适应学生能力水平的数学学习平台。在线教育机构则通过该数据集的难度分级系统，为不同阶段的学习者生成个性化的数学练习内容。此外，其强化学习框架也为开发具有持续学习能力的数学解题助手提供了重要参考。

衍生相关工作

基于We-Math 2.0数据集，研究者们已经开展了多项创新性工作。在模型架构方面，衍生出了专门针对数学推理优化的多模态Transformer变体；在训练方法上，开发了基于知识点的课程学习策略和动态调度强化学习算法。该数据集还催生了MathBookEval评估基准，成为衡量模型数学推理能力的新标准。这些工作共同推动了多模态数学推理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集