Math-VR

Name: Math-VR
Creator: 香港大学, 美团, 香港中文大学
Published: 2025-10-14 01:59:55
License: 暂无描述

arXiv2025-10-14 更新2025-11-05 收录

下载链接：

https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT

下载链接

链接失效反馈

官方服务：

资源简介：

Math-VR是一个大规模的双语数据集和基准，包含178K个数学问题样本，旨在解决视觉推理问题。数据集涵盖了广泛的视觉推理任务，如几何、代数、微积分和统计等领域，其中几何问题占主导地位。数据集每个样本都包含一个问题、一个推理过程和最终的答案，其中推理过程中至少包含一个图像。Math-VR数据集为视觉推理数学问题提供了基础，并通过使用先进的图像到代码转换器，将复杂的数学图形转换为代码，为解决数学问题提供了强有力的支持。

提供机构：

香港大学, 美团, 香港中文大学

创建时间：

2025-10-14

搜集汇总

数据集介绍

构建方式

在数学教育领域，视觉推理对于解决几何与代数问题具有关键作用。Math-VR数据集的构建始于从公开网站收集90万道中学数学题目，通过Qwen2.5-VL-72B模型筛选出包含数学图像且需视觉推理的样本，并利用GPT-4.1进行文本标准化与质量验证，最终形成包含17.8万双语样本的大规模数据集。该过程特别注重保留解题过程中的几何图示与函数图像，确保数据在视觉推理任务中的有效性。

特点

Math-VR数据集的核心特点体现在其多模态结构与知识覆盖广度上。该数据集包含29%的纯文本问题与71%的图文结合问题，所有问题均需通过视觉推理解决。在知识体系上，几何类问题占比达81%，涵盖平面几何、立体几何与解析几何等子类，同时融合代数、微积分与统计等多元数学领域。每个样本不仅提供问题与答案，更包含带有数学图像的解题过程，完整呈现了几何作图与函数绘制等视觉推理要素。

使用方法

该数据集的应用需结合其独特的评估框架。研究者可利用Math-VR基准测试中的5000道双语题目，通过设计的答案正确性（AC）与过程评分（PS）双指标体系进行模型评估。使用时应遵循视觉推理范式，引导模型在解题过程中生成绘图代码并渲染图像，以模拟人类添加辅助线或绘制函数图像的认知过程。基准测试还提供文本子集与多模态子集，支持对不同视觉推理能力的细粒度分析。

背景与挑战

背景概述

Math-VR数据集由香港大学、美团和香港中文大学的研究团队于2025年联合创建，旨在解决当前大语言模型和视觉语言模型在数学视觉推理领域的瓶颈问题。该数据集聚焦于需要视觉辅助的数学问题求解，如几何证明中的辅助线绘制和函数图像绘制等核心研究问题。作为首个大规模双语数学视觉推理数据集，Math-VR包含17.8万个样本，其中几何问题占比达81%，涵盖了平面几何、立体几何和解析几何等多个子领域。该数据集的建立为多模态数学推理研究提供了重要基础，推动了代码驱动的视觉推理新范式的发展。

当前挑战

Math-VR数据集主要面临两大挑战：在领域问题层面，传统数学模型难以处理需要视觉推理的数学问题，现有模型大多局限于纯文本推理链，缺乏精确可控的视觉生成能力；在构建过程中，数据集面临数学图像高质量标注的挑战，需要开发专门的图像到代码转换器来解析复杂数学图形，同时还需解决双语样本的质量控制和标准化问题，确保推理过程的准确性和一致性。

常用场景

经典使用场景

在数学视觉推理研究领域，Math-VR数据集作为首个大规模双语基准测试工具，主要应用于评估多模态大语言模型在几何问题求解中的视觉推理能力。该数据集通过呈现包含几何图形与函数图像的多模态问题，要求模型不仅理解文本描述，还需通过绘制辅助线、构建几何图形等视觉操作来辅助推理过程，从而模拟人类在解决复杂数学问题时的认知模式。

解决学术问题

Math-VR有效解决了传统数学推理模型依赖纯文本链式思维的局限性，填补了视觉辅助数学推理研究的数据空白。该数据集通过178K个标注样本，为研究社区提供了系统评估视觉推理能力的标准框架，显著提升了模型在几何构造、空间关系理解等任务上的表现。其创新性的代码驱动推理范式更突破了像素级图像生成的精度瓶颈，为多模态数学推理开辟了新的研究方向。

衍生相关工作

基于Math-VR数据集衍生的CodePlot-CoT范式催生了系列创新研究，包括专攻数学图形解析的MatplotCode图像转码器、支持多步视觉推理的Bagel-Zebra-CoT模型等。这些工作通过将视觉推理转化为可执行代码生成任务，显著提升了几何问题求解的精确度，并为后续视觉链式思维、程序化推理等研究方向奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集