MATHEXPLAIN

Name: MATHEXPLAIN
Creator: 延世大学, Mathpresso
Published: 2025-04-04 14:03:13
License: 暂无描述

arXiv2025-04-04 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.03197v1

下载链接

链接失效反馈

官方服务：

资源简介：

MATHEXPLAIN是一个包含997个数学问题实例的多模态视觉解决方案解释基准，每个实例包含问题文本、问题图像、解决方案文本、解决方案图像以及视觉关键点。该数据集由延世大学和Mathpresso共同创建，旨在评估模型在视觉解决方案解释任务上的表现，涵盖了几何和图形解释等主题，适合于中学生的教育水平。

MATHEXPLAIN is a multimodal visual solution explanation benchmark consisting of 997 mathematical problem instances. Each instance includes problem text, problem image, solution text, solution image, and visual keypoints. Co-developed by Yonsei University and Mathpresso, this dataset is designed to evaluate model performance on visual solution explanation tasks, covering topics such as geometric and graphical interpretations, and is tailored to the educational level of middle school students.

提供机构：

延世大学, Mathpresso

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

MATHEXPLAIN数据集的构建过程体现了严谨的多模态教育数据设计理念。研究团队从内部数学教育平台提取了997个涵盖几何与图形解释的中高中数学问题，每个样本均包含原始问题文本(Tp)、问题图像(Ip)、解答文本(Ts)和解答图像(Is)。为确保视觉关键点的教育有效性，解决方案图像通过添加辅助线、角度标记等新元素从原始图像派生而来，同时采用GPT-4o辅助标注与人工验证相结合的双重机制，最终形成结构化视觉关键点(VK)标注体系。

特点

该数据集的核心特色在于其创新的视觉解释评估维度。区别于传统数学基准仅关注答案正确性，MATHEXPLAIN通过几何(76.7%)与函数图形(23.3%)问题的平衡分布，以及多选(58.8%)与简答(42.4%)题型的系统配置，构建了包含3.8个平均视觉关键点的评估体系。其五级分类标注框架（点、线、面、符号及子类标记）实现了对教学场景中视觉辅助要素的细粒度建模，为多模态大模型的教育应用提供了精准的测评标准。

使用方法

研究者可通过两个递进任务开发模型的数学解释能力：视觉关键点识别任务要求模型根据问题图文推断解题必需的视觉元素，采用精确匹配率(EM)评估预测质量；关键点解释生成任务则评估模型整合视觉要素生成教学解释的能力，通过正确性、忠实度和视觉引用度三维度Likert量表进行人工与GPT联合评测。基准测试时需注意保持原始问题图像与解决方案图像的对应关系，并严格遵循JSON格式的视觉关键点标注规范。

背景与挑战

背景概述

MATHEXPLAIN数据集由延世大学和Mathpresso的研究团队于2025年提出，旨在填补多模态大语言模型在教育领域中视觉解释能力的空白。随着大语言模型数学推理能力的显著提升，其在教育辅助中的应用日益广泛，然而现有模型生成的解释普遍缺乏人类教师常用的视觉辅助手段（如辅助线、标记和几何构造）。该数据集包含997个数学问题，每个问题均配有原始图像、解决方案图像、解释文本以及视觉关键点标注，覆盖几何和函数图像等中学数学核心内容。作为首个专注于视觉化解题解释的基准测试，MATHEXPLAIN为开发具备教学解释能力的多模态模型提供了重要研究基础。

当前挑战

该数据集面临双重挑战：在领域层面，现有数学推理模型普遍存在'视觉解释鸿沟'，即能生成正确解答却难以通过视觉元素阐明解题逻辑，这与人类教师运用双重编码理论的教学实践形成显著差距；在构建层面，标注过程需精确捕捉解题所需的非原始视觉元素（如新增角度标记或辅助线），并通过严格的AI-人工协同流程确保关键点描述的教育有效性，这对标注者的数学素养和跨模态理解能力提出极高要求。此外，评估体系需同时衡量视觉关键点识别的准确性和解释文本对视觉元素的引用连贯性，这对评价指标设计带来复杂性。

常用场景

经典使用场景

MATHEXPLAIN数据集在数学教育领域具有广泛的应用价值，尤其在多模态大语言模型（MLLMs）的研究中，它被用于评估模型在视觉化数学问题解答方面的能力。该数据集通过提供问题图像、解答图像以及视觉关键点，使得研究者能够深入探索模型如何结合视觉元素生成直观且易于理解的数学解答。

解决学术问题

MATHEXPLAIN数据集解决了当前MLLMs在数学教育中的一个关键问题：缺乏视觉化解释能力。传统的模型往往仅依赖文本解答，而忽略了视觉元素在数学学习中的重要性。该数据集通过引入视觉关键点和多模态问题解答，为研究者提供了一个评估和提升模型视觉解释能力的平台，从而填补了这一研究空白。

衍生相关工作

MATHEXPLAIN数据集的推出，激发了多模态数学教育研究的新方向。许多后续工作开始关注如何进一步提升模型的视觉解释能力，例如通过改进视觉关键点生成算法或结合更先进的图像处理技术。此外，该数据集还促进了与其他数学教育数据集的融合，为多模态学习模型的全面发展提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集