MathCanvas-Edit

Hugging Face2025-10-22 更新2025-10-23 收录

下载链接：

https://huggingface.co/datasets/shiwk24/MathCanvas-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

MathCanvas-Edit数据集是一个包含520万个逐步编辑轨迹的大规模数据集，用于训练模型生成和按文本指令顺序编辑数学图表。数据集通过细致的自动化数据筛选管道构建，分解复杂数学图表为可执行的编辑步骤，为训练模型稳健的视觉推理能力打下坚实基础。

创建时间：

2025-10-17

原始信息汇总

MathCanvas-Edit 数据集概述

数据集基本信息

语言: 英语
许可证: Apache-2.0
标签: 数学、图像编辑、视觉思维链、几何图表
任务类别: 图像到图像

数据集配置

基础结构生成

训练集路径: data/foundational_structure_generation/train/train-*
验证集路径: data/foundational_structure_generation/val/validation-*

竞赛级挖掘

训练集路径: data/competition_level_mining/train/train-*
验证集路径: data/competition_level_mining/val/validation-*

数据特征

id: 字符串类型
code_list: 字符串列表
base_caption: 字符串类型
instruction_list: 字符串列表
seed: 整型
image_list: 图像列表

数据集规模

竞赛级挖掘

训练样本: 4,249,400
验证样本: 5,000

基础结构生成

训练样本: 995,000
验证样本: 5,000

数据集用途

用于MathCanvas框架的视觉操作预训练阶段
训练模型根据文本指令生成和顺序编辑数学图表
培养统一大型多模态模型的内在视觉思维链能力

相关资源

论文: https://arxiv.org/pdf/2510.14958
项目页面: https://mathcanvas.github.io/
代码仓库: https://github.com/shiwk24/MathCanvas

搜集汇总

数据集介绍

构建方式

在数学视觉推理领域，MathCanvas-Edit数据集通过精心设计的自动化流程构建而成。该流程从海量原始数据中挖掘并合成数学图形，随后生成对应的编辑指令与中间视觉步骤，形成完整的视觉思维轨迹。这种分步解构方法确保了数据的高质量与多样性，为模型掌握从抽象数学概念到精确视觉表达的转换奠定了坚实基础。

特点

作为包含520万条逐步编辑轨迹的大规模数据集，MathCanvas-Edit展现出鲜明的层次化特征。其包含竞赛级挖掘与基础结构生成两个子集，分别针对复杂多步推理与基础几何构建任务。数据轨迹长度分布呈现规律性特征，99.98%的样本采用三步编辑路径，完美模拟初始状态到最终结果的典型推理过程，同时通过不同代码长度确保模型处理多样起点的能力。

使用方法

该数据集专为视觉操作预训练阶段设计，用户可通过加载指定配置文件获取训练与验证数据。数据集提供代码序列、基础描述、指令列表和图像序列等结构化特征，支持模型学习基于文本指令的数学图形生成与顺序编辑。研究人员可按照标准图像到图像任务流程，利用这些逐步编辑轨迹训练统一大型多模态模型，培养其内在视觉思维链能力。

背景与挑战

背景概述

在数学教育与人机交互领域，视觉化推理能力的构建一直是核心研究议题。MathCanvas-Edit数据集作为MathCanvas框架的关键组成部分，由研究团队于2025年提出，旨在通过520万条逐步编辑轨迹训练统一大型多模态模型，使其具备内在的视觉思维链能力。该数据集聚焦于数学几何图形的生成与编辑任务，通过自动化流水线将复杂图形解构为可执行的编辑指令序列，为模型理解抽象数学概念与具体视觉表达之间的映射关系奠定了数据基础。

当前挑战

数学图形编辑任务面临双重挑战：在领域问题层面，需解决从自然语言指令到几何图形动态演变的精确映射问题，特别是对辅助线绘制、交点标记等抽象操作的视觉化表征；在数据构建层面，自动化流水线需平衡编辑轨迹的复杂性与数据质量，既要涵盖竞赛级难题的多步推理路径，又要确保基础结构生成中从零构建的逻辑连贯性，同时维持数百万级数据量的标注一致性。

常用场景

经典使用场景

在数学可视化推理领域，MathCanvas-Edit数据集通过520万条逐步编辑轨迹，为统一大型多模态模型提供了视觉思维链的训练基础。该数据集典型应用于模型预训练阶段，通过解析几何图形的构造与编辑指令，使模型能够理解从基础图形到复杂结构的演变过程。这种序列化视觉操作模拟了人类解决数学问题时的思维路径，为多模态推理建立了可解释的中间表征。

实际应用

在实际应用层面，该数据集支撑的视觉编辑能力已广泛应用于智能教育系统。通过生成动态几何图示辅助数学概念教学，实现解题步骤的可视化演示。在竞赛数学训练中，系统能根据题目要求自动构建辅助线与标记关键点，为学习者提供直观的推理指引。此类技术还可延伸至工程制图、数据可视化等领域，提升复杂信息的结构化呈现效率。

衍生相关工作

基于该数据集衍生的经典工作包括视觉思维链的泛化框架研究，其编辑轨迹生成方法被拓展至化学分子结构可视化、电路设计等领域。相关研究进一步开发了分层编辑策略，将复杂图形解构为原子化操作序列。这些成果催生了多模态程序合成的新方向，促使视觉语言模型在保持语义一致性的同时，实现精确的结构化输出生成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集