MathCanvas-Bench

Hugging Face2025-10-22 更新2025-10-23 收录

下载链接：

https://huggingface.co/datasets/shiwk24/MathCanvas-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MathCanvas-Bench是一个专注于评估大型多模态模型在复杂数学推理中视觉链式思维能力的数据集，包含3079个涉及几何、代数和微积分等多个数学领域的问题，要求模型生成交错的视觉-文本解决方案。

创建时间：

2025-10-17

原始信息汇总

MathCanvas-Bench数据集概述

基本信息

语言: 英语
许可证: Apache-2.0
任务类别: 问答、视觉问答、图像文本到文本、文本生成
标签: 基准测试、数学、推理、多模态、图像文本交错、视觉思维链、几何图表、函数绘图

数据集配置

数据集包含8个数学领域的配置：

代数
解析几何
微积分与向量
平面几何
立体几何
统计学
变换几何
三角学

数据集特征

id: 字符串类型标识符
question_interleave: 交错问题内容列表
- content: 字符串内容
- index: 索引位置
- type: 类型标识
question_images: 问题图像列表
solution_interleave: 交错解决方案列表
- content: 字符串内容
- index: 索引位置
- type: 类型标识
solution_images: 解决方案图像列表
answer: 答案字符串
knowledge: 知识领域
subknowledge: 子知识领域

数据集规模

包含3,079个具有挑战性的数学问题
要求模型生成交错的视觉-文本解决方案

评估方法

完整准确率: 评估模型是否能生成完全正确的逐步推理过程
加权评分: 对正确推理步骤给予部分评分

相关资源

论文: https://arxiv.org/abs/2510.14958
项目页面: https://mathcanvas.github.io/
GitHub代码: https://github.com/shiwk24/MathCanvas
官方排行榜: https://mathcanvas.github.io/#leaderboard

搜集汇总

数据集介绍

构建方式

在数学推理领域，MathCanvas-Bench数据集通过精心设计的多模态问题构建而成，涵盖了代数、几何、微积分等核心数学分支。该数据集包含3079道复杂题目，每道题目均采用图文交织的格式呈现，问题与解答部分均融合了文本描述和视觉元素。构建过程中特别注重视觉推理链的完整性，确保每个问题都需要模型生成包含中间视觉步骤的完整解答路径，从而精准评估模型的内在视觉思维过程。

特点

该数据集最显著的特点是强调视觉推理链的核心地位，要求模型具备生成图文交织解答的能力。其题目设计覆盖八大数学子领域，包括平面几何、立体几何和三角函数等，每个问题都包含交错排列的文本内容和图像元素。数据集采用严格的评估标准，不仅关注最终答案的正确性，更重视推理过程中视觉辅助工具的合理运用，这为多模态模型的视觉推理能力提供了全面而深入的测评框架。

使用方法

使用该数据集时，研究人员可通过加载不同数学子领域的配置文件进行针对性测试。评估过程主要采用完整准确率和加权评分两种指标，前者检验模型生成完全正确推理路径的能力，后者则对部分正确的推理步骤给予适当分数。数据集支持标准的视觉问答任务流程，用户可调用官方提供的评估脚本来量化模型在视觉推理链生成方面的表现，从而系统性地推动多模态数学推理技术的发展。

背景与挑战

背景概述

数学推理作为人工智能领域的核心挑战，长期受到研究界广泛关注。MathCanvas-Bench由研究团队于2025年提出，旨在填补多模态数学推理评估体系的空白。该数据集聚焦于视觉思维链能力的系统评估，涵盖代数、解析几何、微积分等八大数学分支，通过3079道精心设计的题目构建起多模态推理的测试框架。其创新性地将图像与文本交错编排的解题过程作为评估标准，推动了大型多模态模型在数学视觉推理方面的研究进程，为理解人类认知过程中的视觉辅助机制提供了重要实验平台。

当前挑战

在数学问题求解领域，传统模型往往局限于纯文本推理，难以生成有效的视觉辅助内容。MathCanvas-Bench直面这一挑战，要求模型具备生成交错式视觉文本解决方案的能力，特别是在几何证明与函数分析等需要空间想象的场景中。数据构建过程中面临双重困难：既要确保数学问题的严谨性与多样性，又需设计符合认知规律的视觉文本交错结构。同时，评估体系需要精确量化视觉推理步骤的正确性，这对自动评分机制提出了更高要求，需要平衡解题完整性与步骤准确性的衡量标准。

常用场景

经典使用场景

在数学推理领域，MathCanvas-Bench作为评估大型多模态模型视觉思维链能力的基准工具，其经典应用场景聚焦于模型生成交错式视觉与文本解题过程的能力。该数据集通过涵盖几何、代数、微积分等数学分支的复杂问题，要求模型模拟人类解题时绘制辅助图形、标注函数图像等行为，从而系统检验多模态推理中视觉信息与逻辑推导的协同机制。

实际应用

在实际应用层面，该数据集为智能教育系统提供了关键的技术验证标准。基于其构建的评估体系可应用于数学辅导软件的开发，通过检测模型生成示意图、函数图像等视觉元素的质量，提升自动化解题系统的教学可信度。同时，该基准也为工业界研发具备可视化推理能力的专业辅助工具奠定了理论基础。

衍生相关工作

围绕该数据集衍生的经典研究包括视觉思维链的建模框架优化与多模态推理的评估方法创新。已有工作通过引入动态视觉标注机制，扩展了传统链式推理的表示维度；同时，基于该基准开发的层次化评估协议，催生了针对复杂数学问题的多粒度性能分析方法，为后续跨模态推理研究提供了可复现的实验范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集