Visual-Math-Eval

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/monjoychoudhury29/Visual-Math-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

视觉方程求解基准数据集是一个评估视觉语言模型在解决视觉方程任务上的能力的数据集。该数据集包含线性方程系统，其中变量用对象图标表示，系数通过图标的重复来表示。数据集分为两个版本，分别基于两个变量和三个变量。每个版本都有符号方程、视觉符号方程和完全视觉方程三种设置。数据集中的图像包含相应的元数据文件，提供了图像路径、变量解决方案和符号变量的映射。

创建时间：

2025-08-30

原始信息汇总

数据集概述：Visual Equation Solving Benchmark

基本信息

名称：Visual Equation Solving Benchmark
许可证：CC BY 4.0
任务类别：问答
语言：英语
标签：数学
数据规模：1K<n<10K
下载大小：194,320,410字节
数据集大小：197,670,580字节

数据集结构

特征

image：图像
c_count：字符串
b_icon_type：字符串
b：字符串
a：字符串
a_value：字符串
b_icon：字符串
a_icon_type：字符串
b_count：字符串
b_value：字符串
c_icon_type：字符串
c_value：字符串
a_icon：字符串
equation：字符串
c：字符串
c_icon：字符串
a_count：字符串

数据划分

two_variables_char_only：1,000个样本，25,833,275字节
two_variables_icon_only：1,000个样本，16,183,171字节
two_variables_icon_partial：1,000个样本，16,099,172字节
two_variables_counting：1,000个样本，7,730,753字节
three_variables_char_only：1,000个样本，50,892,199字节
three_variables_icon_only：1,000个样本，34,912,838字节
three_variables_icon_partial：1,000个样本，34,540,943字节
three_variables_counting：1,000个样本，11,478,229字节

数据集描述

该数据集用于评估视觉语言模型在视觉方程求解任务上的表现，要求系统能够识别以对象图标表示的变量，通过图标重复推断系数，并整合识别与符号推理来求解方程。

设置类型

符号方程（文本形式，渲染为图像）
视觉符号方程（变量为图标，系数为数字文本）
完全视觉方程（变量和系数均以视觉方式表示）

数据组织

数据集基于变量数量分为2变量和3变量两种变体，每种变体包含以下子集：

char_only：符号数据集
icon_only：视觉数据集
icon_partial：视觉符号数据集
counting：计数数据集

每个子集包含元数据文件（metadata.csv）和图像文件（*.png），元数据包括图像文件路径、变量解以及到符号变量的映射（适用于视觉、视觉符号和计数数据集）。

来源

数据集来源于论文《Can Vision-Language Models Solve Visual Math Equations?》（已获EMNLP 2025主会议接受）。

引用

bibtex @inproceedings{anonymous2025vlm-math, title = {Can Vision-Language Models Solve Visual Math Equations?}, author = {Anonymous}, booktitle = {ACL (under review)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，Visual-Math-Eval数据集通过系统化方法构建，涵盖符号方程、视觉符号方程及全视觉方程三种形式。该数据集基于线性方程组，采用物体图标作为变量，图标重复次数表示系数，生成了包含二变量与三变量两种类型的样本。每种类型下设四个子集，总计提供8000个高质量样本，每样本均包含图像及元数据，确保数据多样性与逻辑一致性。

特点

Visual-Math-Eval数据集的核心特点在于其多模态结构与细粒度标注。每个样本融合图像与文本信息，涵盖字符、图标及计数等多种表示方式。元数据详细记录变量映射、方程解及符号对应关系，支持模型在视觉感知与符号推理间的协同学习。数据集划分为八个子集，均衡覆盖不同复杂度与表示形式，为评估模型在跨模态推理任务中的表现提供全面基准。

使用方法

使用该数据集时，研究者可通过加载指定子集获取图像与对应元数据。模型需识别图像中的图标变量，解析重复次数作为系数，并求解线性方程组。评估流程包括端到端预测与分阶段分析，以检验视觉识别与数学推理的整合能力。数据集支持标准化评测协议，便于比较不同视觉语言模型在符号化视觉推理任务上的性能。

背景与挑战

背景概述

视觉数学方程求解基准数据集由匿名研究团队于2025年构建，旨在评估视觉语言模型在融合感知与符号推理方面的能力。该数据集通过图标化变量和重复实例表示系数，构建线性方程组视觉表征，填补了多模态推理研究的关键空白。其创新性地将数学问题转化为视觉符号解析任务，为评估模型跨模态理解能力提供了标准化测试平台，对推动视觉语言智能发展具有重要理论价值。

当前挑战

该数据集核心挑战在于解决视觉符号与数学语义的跨模态映射问题，要求模型同时具备图标识别、数量统计和方程求解能力。构建过程中需克服视觉元素与数学变量的精确对应难题，包括图标多样性带来的表征一致性维护、系数重复计数的准确性保障，以及不同复杂度方程组的视觉化统一表征。这些挑战直接检验模型从感知到推理的端到端处理能力。

常用场景

经典使用场景

在视觉语言模型的多模态推理研究中，Visual-Math-Eval数据集被广泛用于评估模型对视觉数学方程的解析能力。该数据集通过将线性方程组中的变量表示为物体图标、系数通过图标重复次数来体现，要求模型同时处理视觉识别与符号推理任务。典型实验场景包括让模型识别图标变量、统计重复次数作为系数，并最终解出方程组，从而检验视觉与数学符号理解的融合能力。

实际应用

在实际应用层面，Visual-Math-Eval所代表的视觉数学推理能力在教育科技、无障碍技术和自动化办公等领域具有重要价值。智能教育系统可利用这种技术解析手写或图形化的数学问题，为学习者提供即时解答；视觉障碍辅助工具可通过识别图形方程转换为可读文本；文档数字化处理系统则能自动提取和计算视觉形式的数值信息，提升信息处理效率。

衍生相关工作

该数据集的推出催生了一系列多模态数学推理的相关研究，包括基于视觉的方程解析算法、图标-符号映射网络以及端到端的视觉数学求解器。后续工作扩展了视觉数学问题的复杂度，如多元非线性方程和几何问题的视觉化表示。同时激发了多模态推理基准的构建浪潮，促进了ICONQA、MathVista等综合性视觉数学数据集的诞生，形成了视觉数学推理的研究体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集