Math-VR

github2025-10-02 更新2025-10-03 收录

下载链接：

https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT

下载链接

链接失效反馈

官方服务：

资源简介：

Math-VR是第一个大规模双语数学视觉推理数据集和基准，包含178K样本，专门用于需要视觉推理的数学问题，例如绘制辅助线或函数图。

Math-VR is the first large-scale bilingual mathematical visual reasoning dataset and benchmark, containing 178K samples. It is specifically designed for mathematical problems that require visual reasoning, such as drawing auxiliary lines or function graphs.

创建时间：

2025-10-02

原始信息汇总

Math-VR数据集与CodePlot-CoT模型概述

数据集基本信息

数据集名称：Math-VR
数据规模：178,000个样本
语言类型：双语（英文和中文）
核心特点：首个大规模数学视觉推理数据集

数据集构成

训练数据集

名称：Math-VR-train
下载地址：https://huggingface.co/datasets/gogoduan/Math-VR-train

基准测试数据集

名称：Math-VR-bench
样本数量：5,000个双语数学问题
下载地址：https://huggingface.co/datasets/gogoduan/Math-VR-bench
子集划分：
- 文本子集：2,000个纯文本问题
- 多模态子集：3,000个包含文本和图像的问题

数据集特征

样本结构

每个样本包含问题、详细推理过程和最终答案
推理过程至少包含一张图像
覆盖几何、代数和微积分等多个数学领域

评估指标

答案正确率：严格检查最终答案是否与标准答案完全匹配
过程得分：评估推理过程中关键得分点的命中情况

基准测试结果

在Math-VR基准测试英文子集（2,500个问题）上的表现：

CodePlot-CoT模型：
- 总体答案正确率：22.1%
- 总体过程得分：47.0%
- 文本子集答案正确率：31.6%
- 多模态子集答案正确率：15.8%

许可证

代码采用MIT许可证发布

搜集汇总

数据集介绍

构建方式

在数学视觉推理领域，Math-VR数据集的构建采用了创新的代码驱动范式。通过开发专用的MatplotCode图像转代码转换器，将复杂数学图形精准转化为可执行的Python绘图代码，确保了数据生成的高保真度与可复现性。该数据集包含17.8万双语样本，涵盖几何、代数与微积分等多数学分支，每个样本均包含问题描述、含可视化推理步骤的思维过程及最终答案，形成了首个大规模数学视觉推理基准。

特点

Math-VR数据集的核心特点体现在其深度融合视觉与逻辑的数学问题架构。所有样本均包含至少一幅由代码生成的可执行图像，构建了文本与视觉元素协同推理的完整链条。数据集采用双语平行结构，包含5000道精选测试题目，严格排除证明类与多数选择题型，确保评估的确定性。其独创的答案正确性与过程评分双指标体系，既能检验最终结果的准确性，又可捕捉推理链中的关键思维节点。

使用方法

该数据集支持端到端的数学视觉推理模型训练与评估。用户可通过HuggingFace平台获取训练集与测试集，利用提供的CodePlot-CoT模型实现代码驱动的可视化推理。评估时需将模型输出的解题过程转换为标准JSON格式，通过专用评估脚本调用GPT-4.1进行自动化评分。数据集特别区分纯文本与多模态子集，支持针对不同模态输入能力的精细化测试，为数学推理模型的视觉化思维能力提供标准化度量基准。

背景与挑战

背景概述

在人工智能领域，数学视觉推理一直被视为多模态智能系统的关键挑战。Math-VR数据集由香港大学、美团和香港中文大学的研究团队于2024年联合创建，作为首个大规模双语数学视觉推理基准，其核心目标在于解决传统视觉语言模型在需要辅助绘图或函数图像分析的数学问题上的能力局限。该数据集包含17.8万样本，涵盖几何、代数与微积分等多个数学分支，通过引入代码驱动的视觉思维范式，显著推动了多模态推理模型在数学问题解决中的精确性与泛化能力。

当前挑战

数学视觉推理领域长期面临模型难以生成精确可视化辅助的挑战，例如几何证明中辅助线的绘制或函数图像的动态生成。Math-VR在构建过程中需克服高质量代码-图像配对数据稀缺的难题，为此团队开发了专用图像转代码工具MatplotCode以确保绘图代码的100%可执行性。同时，基准评估设计需平衡文本与多模态问题的复杂性，并通过过程评分机制捕捉推理逻辑的完整性，避免传统仅依赖答案正确性的评估偏差。

常用场景

经典使用场景

在数学视觉推理领域，Math-VR数据集作为首个大规模双语基准，主要应用于评估和提升视觉语言模型在解决需要图像辅助的数学问题上的能力。该数据集通过包含几何、代数与微积分等领域的17.8万样本，为模型提供了结合代码生成与图像渲染的推理训练环境，尤其适用于需要绘制辅助线或函数图像的问题场景。

实际应用

该数据集的实际价值体现在智能教育系统与自动化解题工具的构建中。通过集成代码生成与图像渲染技术，它能够辅助开发具备可视化推理能力的数学辅导平台，帮助学生理解几何证明或函数分析等抽象概念，同时为工业级应用如自动化报告生成提供可靠的多模态数据处理基础。

衍生相关工作

基于Math-VR衍生的核心工作包括CodePlot-CoT推理框架与MatplotCode图像转代码转换器。这些成果推动了视觉语言模型在数学领域的专用化发展，后续研究如多模态思维链优化与高保真代码渲染技术均受其启发，进一步拓展了代码驱动推理在科学计算与工程建模中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集