GSM8K-V

github2025-09-30 更新2025-10-01 收录

下载链接：

https://github.com/ZJU-REAL/GSM8K-V

下载链接

链接失效反馈

官方服务：

资源简介：

GSM8K-V是一个纯粹视觉的多图像数学推理基准，系统地将每个GSM8K数学文字问题映射到其视觉对应物，以实现跨模态的清晰、项目内比较。通过自动化流程构建，该基准包含1,319个高质量多场景问题（5,343张图像），解决了先前视觉数学评估主要关注几何、很少涵盖可视化文字问题以及很少测试具有语义依赖关系的多图像推理的局限性。

GSM8K-V is a purely visual multi-image mathematical reasoning benchmark that systematically maps each GSM8K mathematical word problem to its visual counterpart to enable clear within-project cross-modal comparisons. Constructed via an automated pipeline, this benchmark contains 1,319 high-quality multi-scenario questions (5,343 images), addressing the limitations of previous visual mathematical evaluations, which mainly focused on geometry, rarely covered visual word problems, and seldom tested multi-image reasoning with semantic dependencies.

创建时间：

2025-09-25

原始信息汇总

GSM8K-V 数据集概述

数据集基本信息

数据集名称：GSM8K-V
核心目标：评估视觉语言模型在视觉场景中解决小学数学文字问题的能力
创建方式：通过自动化流程将GSM8K数学文字问题系统映射到视觉对应版本，结合人工标注
数据规模：包含1,319个高质量多场景问题（5,343张图像）

数据集特点

模态特性：纯视觉多图像数学推理基准
问题类型：多场景问题，图像间存在语义依赖关系
质量保证：经过细致的人工标注

评估结果

主要发现：存在显著的模态差距
典型示例：Gemini-2.5-Pro在基于文本的GSM8K上准确率达95.22%，但在GSM8K-V上仅为46.93%

技术意义

解决先前视觉数学评估主要关注几何、很少涵盖可视化文字问题、很少测试跨多图像推理的局限性
为开发更稳健和可泛化的视觉语言模型提供基础

资源链接

数据集地址：https://huggingface.co/datasets/ZJU-REAL/GSM8K-V
论文地址：https://arxiv.org/abs/2509.25160
项目页面：https://zju-real.github.io/GSM8K-V

联系方式

联系邮箱：yuanfan7777777@gmail.com

搜集汇总

数据集介绍

构建方式

在视觉语言模型快速发展的背景下，GSM8K-V数据集通过系统化流程将GSM8K数学文字问题映射至视觉场景。该构建过程采用自动化流水线技术，首先提取问题中的关键信息并分配到不同场景，随后生成场景级描述并渲染图像，最后结合精细的人工标注确保数据质量。整个流程产生了包含1,319个多场景问题的高质量数据集，涵盖5,343张图像，为跨模态数学推理研究提供了坚实基础。

使用方法

在具体应用层面，GSM8K-V提供了灵活的评价框架。用户可通过命令行工具配置评估参数，支持vllm和api两种运行模式，能够根据需求调整并发数、样本数量和评估模式。数据集支持隐式和显式两种提示方式，并允许按类别和子类别进行针对性评估。这种模块化设计使得研究者能够全面考察模型在不同视觉推理任务上的表现，为模型优化提供详细指导。

背景与挑战

背景概述

视觉语言模型在多模态推理领域的快速发展催生了GSM8K-V数据集的诞生，该数据集由浙江大学研究团队于2025年创建，旨在解决传统数学推理基准局限于文本模态的局限性。通过将经典文本数学题GSM8K系统转化为视觉场景，该数据集构建了包含1,319个多场景问题的高质量基准，涵盖5,343张具有语义依赖关系的图像。这一创新工作为评估模型在真实视觉场景中的数学推理能力提供了标准化测试平台，推动了跨模态推理研究的发展。

当前挑战

该数据集核心挑战在于突破视觉数学推理的模态壁垒，传统模型在文本数学题中表现优异却难以理解视觉场景中的数学逻辑关系。构建过程中面临多重技术难题：需通过自动化流程精确提取问题信息并生成场景描述，同时保持视觉元素与数学概念的语义一致性；多图像场景的语义依赖关系要求精细的标注策略，确保图像序列能完整呈现解题逻辑。这些挑战凸显出现有视觉语言模型在复杂多模态推理任务中的能力边界。

常用场景

经典使用场景

在视觉语言模型研究领域，GSM8K-V数据集被广泛用于评估模型对多图像场景下数学问题的推理能力。该数据集通过将文本数学问题转化为视觉场景，要求模型从包含语义依赖关系的图像序列中提取关键信息并执行计算。例如，模型需要分析描述购物清单或运动轨迹的连续图像，推断数量变化关系，最终得出数值答案。这种设定有效模拟了现实世界中基于视觉信息的逻辑推理过程，为模型的多模态理解能力提供了标准化测试环境。

解决学术问题

该数据集主要解决了视觉语言模型在跨模态数学推理中的核心挑战。传统文本基准难以评估模型对视觉场景的语义解析能力，而现有视觉数学数据集多局限于几何问题。GSM8K-V通过系统化构建带有多图像语义依赖的数学问题，填补了可视化文字问题评估的空白。其实验结果揭示了模型在文本与视觉模态间的性能鸿沟，为研究多模态融合、场景理解与符号推理的交互机制提供了关键见解，推动了通用人工智能在复杂环境下的认知能力发展。

实际应用

在教育技术领域，该数据集支撑的模型能力可直接应用于智能辅导系统。这类系统能通过摄像头捕捉学生演算过程，实时解析手写公式与图示的语义关系，提供个性化解题指导。在工业自动化场景中，基于多图像序列的数学推理技术可用于分析生产线物料流动，通过视觉计算预测设备损耗周期。医疗影像分析亦能借鉴其多图像推理框架，从连续医学图像中量化病灶变化趋势，辅助临床决策。

数据集最近研究