VCBench

Name: VCBench
Creator: 阿里巴巴集团 DAMO Academy, 湖畔实验室, 浙江大学, 新加坡科技与设计大学
Published: 2025-04-24 14:16:38
License: 暂无描述

arXiv2025-04-24 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.18589v1

下载链接

链接失效反馈

官方服务：

资源简介：

VCBench是一个用于评估多模态数学推理能力的综合基准数据集，专注于评估模型解决小学数学问题的能力，这些问题依赖于明确的视觉依赖关系。数据集包含1720个问题，跨越六个认知领域，并配以6697张图片，平均每个问题包含3.9张图片。该数据集的创建过程严格筛选并翻译了中国小学数学教科书中的问题，确保每个问题都具有独特且明确的答案。VCBench旨在解决当前基准测试中缺乏对视觉-数学推理能力的充分评估的问题，为多模态数学推理的研究提供了宝贵的资源。

VCBench is a comprehensive benchmark dataset for evaluating multimodal mathematical reasoning capabilities, with a specific focus on assessing models' ability to solve elementary school mathematics problems that rely on explicit visual dependencies. The dataset includes 1,720 problems spanning six cognitive domains, paired with 6,697 images, averaging 3.9 images per problem. During its creation, problems sourced from Chinese elementary school mathematics textbooks were strictly screened and translated, ensuring that each problem has a unique and unambiguous answer. VCBench aims to address the gap in current benchmarks that lack sufficient evaluation of visual-mathematical reasoning capabilities, providing a valuable resource for multimodal mathematical reasoning research.

提供机构：

阿里巴巴集团 DAMO Academy, 湖畔实验室, 浙江大学, 新加坡科技与设计大学

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

VCBench数据集的构建采用了系统化的方法，专注于收集具有明确视觉依赖性的高质量多模态数学推理问题。研究团队从中国小学1至6年级数学教材中筛选出至少包含两张图像的问题，确保每个问题具有唯一且明确的答案以便于客观评估。通过大型语言模型将所有问题翻译成英文，并经过严格的人工验证以保证翻译准确性。这一过程不仅确保了数据质量，还消除了图像中非英语内容或模糊视觉元素的问题，从而保证了对真实推理能力的评估。

特点

VCBench数据集包含1,720个问题-答案对和6,697张图像，平均每个问题包含3.9张图像，确保模型必须跨多个视觉输入进行推理。数据集涵盖六个关键认知领域：时间和日历、空间和位置感知、几何和形状、物体和运动、推理和观察、组织和模式。此外，它还评估了五种不同的能力：时间推理、几何推理、逻辑推理、空间推理和模式识别。这些能力从基本的时间和空间理解到更高级的几何和逻辑推理，全面评估了多模态模型的性能。

使用方法

VCBench数据集的使用方法包括在多个视觉输入上进行推理的评估。每个问题平均包含3.9张图像，要求模型整合跨图像的视觉线索进行推理。数据集采用多选答案格式，便于客观和可重复的评估。研究人员可以通过评估模型在六个认知领域和17个任务类别中的表现，识别模型在视觉感知、逻辑推理和模式识别等方面的优势和不足。此外，数据集还支持单图像和多图像设置的对比评估，以揭示模型在跨图像推理能力上的局限性。

背景与挑战

背景概述

VCBench是由阿里巴巴达摩院与湖畔实验室等机构的研究团队于2025年推出的多模态数学推理基准数据集，旨在填补现有评估体系在基础视觉-数学整合能力上的空白。该数据集聚焦小学1-6年级数学问题，包含1,720道题目和6,697张图像，平均每题需跨3.9张图像进行推理，覆盖时空推理、几何认知等6大认知领域。其创新性在于强调视觉依赖性而非领域知识，通过多图像任务设计模拟儿童认知发展路径，为通用人工智能的视觉-语言整合能力评估提供了新范式。实验表明，当前最先进的大型视觉语言模型在该基准上的最高准确率不足50%，揭示了多模态推理的关键瓶颈。

当前挑战

VCBench面临双重挑战：在领域问题层面，需解决多图像数学推理中视觉特征提取、跨模态对齐和常识整合等核心难题，现有模型在时空推理和模式识别等基础能力上表现显著弱于人类；在构建过程中，需克服多图像问题标注的语义一致性维护、视觉-文本依赖关系的精确建模，以及避免预训练知识对真实推理能力评估的干扰等技术难点。特别是数据集中18%的问题涉及18张图像的复杂关联，对模型的视觉信息整合能力提出极致要求。

常用场景

经典使用场景

VCBench作为多模态数学推理领域的基准测试工具，其经典使用场景聚焦于评估大型视觉语言模型（LVLMs）在显式视觉依赖情境下的基础数学认知能力。该数据集通过1,720道涵盖时间日历、空间定位、几何图形等6大认知领域的题目（平均每题含3.9张图像），系统检验模型跨图像整合与常识推理能力。例如在几何拼接任务中，模型需通过多图比对分析三角形内角和规律，模拟儿童通过视觉观察建立数学概念的认知过程。

衍生相关工作

VCBench的发布推动了多模态推理评估体系的革新，直接启发MathVista、MMMUmath等后续研究引入跨图像任务设计。其错误分类框架（视觉感知/逻辑/答案整合等）被Gemini2.0等模型用于针对性改进注意力机制。开源社区基于该基准开发的LLaVA-Interleave等架构，专门增强了多图上下文建模能力，验证了数据集的方法论指导价值。

数据集最近研究