VCBench
收藏arXiv2025-04-29 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.18589v2
下载链接
链接失效反馈官方服务:
资源简介:
VCBench是一个针对多模态数学推理的全面基准,包含1720个问题,覆盖六个认知领域,共有6697张图片,平均每个问题3.9张图片。该数据集旨在评估大型视觉语言模型在多图像推理任务中的表现,特别是针对小学水平的数学问题。数据集创建过程包括从中国小学数学教科书中收集问题,并通过大型语言模型进行翻译和人工验证,确保问题的质量和一致性。VCBench旨在解决当前基准在评估视觉数学推理能力方面的不足,为多模态数学推理的研究提供有价值的资源。
VCBench is a comprehensive benchmark for multimodal mathematical reasoning. It contains 1,720 questions spanning six cognitive domains, with a total of 6,697 images and an average of 3.9 images per question. This benchmark is designed to evaluate the performance of large vision-language models (LVLMs) on multi-image reasoning tasks, especially for elementary-level mathematical problems. The dataset was constructed by collecting questions from Chinese primary school mathematics textbooks, followed by translation via large language models and manual verification to ensure both quality and consistency across all items. VCBench seeks to address the limitations of current benchmarks in evaluating visual mathematical reasoning capabilities, providing a valuable resource for multimodal mathematical reasoning research.
提供机构:
阿里巴巴集团 DAMO Academy、湖畔实验室、浙江大学、新加坡科技与设计大学
创建时间:
2025-04-24
搜集汇总
数据集介绍

构建方式
VCBench数据集的构建采用了系统化的方法,专注于收集具有明确视觉依赖性的高质量多模态数学推理问题。研究团队首先分析了中国小学1至6年级的数学教材,手动筛选出至少包含两张图像的问题。在筛选过程中,团队严格遵循了唯一且明确答案的标准,以确保评估的客观性。随后,利用大型语言模型将所有问题翻译成英文,并通过人工验证确保翻译的准确性。这一过程不仅保证了问题的语言质量,还进一步过滤了图像内容不清晰或指令模糊的问题,从而确保数据集能够有效评估模型的真实推理能力。
使用方法
VCBench数据集的使用方法主要围绕多模态数学推理任务的评估展开。研究人员可以通过该数据集测试模型在多图像推理任务中的表现,特别是在需要跨图像整合视觉信息的场景下。数据集提供了标准化的任务指令和多项选择的评估格式,便于进行客观且可重复的实验。此外,VCBench还支持单图像与多图像设置的对比评估,帮助研究者识别模型在跨图像推理能力上的不足。通过分析模型在不同认知领域和子任务中的表现,研究人员可以深入理解当前多模态模型的优势与局限,并为未来的模型优化提供方向。
背景与挑战
背景概述
VCBench是由阿里巴巴达摩院与湖畔实验室于2025年4月联合发布的多模态数学推理基准数据集,旨在填补现有评估体系在视觉依赖型基础数学推理能力测评上的空白。该数据集聚焦小学1-6年级数学问题,包含1,720道题目和6,697张图像(平均每题3.9张),涵盖时空推理、几何图形、物体运动等6大认知领域。其创新性在于强调多图像组合推理能力,而非依赖单一图像理解或领域专业知识,更贴近儿童认知发展规律,为评估通用人工智能的基础推理能力提供了新范式。
当前挑战
VCBench面临双重挑战:在领域问题层面,现有大型视觉语言模型(LVLM)在需要跨图像整合视觉线索的基础数学推理任务中表现欠佳,最优模型准确率不足50%,显著低于人类水平;在构建层面,需解决多图像问题标注一致性、视觉元素与常识知识融合的复杂性,以及避免文本描述对纯视觉推理能力评估的干扰等技术难题。此外,数据集中18%的题目包含动态视觉关系推理,对模型的时空建模能力提出更高要求。
常用场景
经典使用场景
VCBench数据集在评估大型视觉语言模型(LVLMs)的多模态数学推理能力方面具有经典应用场景。该数据集通过包含1,720个问题和6,697张图像,覆盖了六个关键认知领域,如时间和日历、空间和位置、几何和形状等,要求模型在多图像环境下进行推理。这种设计使得VCBench成为评估模型在视觉依赖数学问题上的表现的重要工具。
解决学术问题
VCBench解决了当前评估基准在视觉依赖数学推理能力上的不足。传统基准多侧重于知识中心的评估,而VCBench则强调视觉中心的评估,专注于模型对基本数学元素和视觉概念的感知和推理能力。通过这种方式,VCBench填补了在评估模型对多图像推理和常识知识整合能力上的空白,为研究多模态推理提供了新的视角。
实际应用
在实际应用中,VCBench可用于开发和优化教育技术工具,特别是在儿童数学学习辅助系统中。通过评估模型在视觉依赖数学问题上的表现,可以改进这些系统在解释和解决多图像数学问题上的能力。此外,VCBench还可用于自动评分系统和个性化学习平台的开发,帮助提升学生在视觉数学推理方面的能力。
数据集最近研究
最新研究方向
近年来,随着大视觉语言模型(LVLMs)在视觉与语言信息融合方面的显著进步,其在对象识别、图像描述生成和视觉问答等任务中展现出接近人类水平的性能。然而,现有基准测试多聚焦于知识导向的评估,往往忽视了模型在基础数学元素和视觉概念推理方面的核心能力。VCBench数据集的提出填补了这一空白,专注于评估具有显式视觉依赖性的多模态数学推理能力。该数据集包含1,720个问题,涵盖六个认知领域,并包含6,697张图像(平均每个问题3.9张图像),确保模型需在多图像环境下进行推理。实验评估了26种前沿LVLMs,结果显示即使表现最佳的模型准确率也未超过50%,凸显了当前模型在视觉-数学整合方面的挑战。VCBench的引入不仅为多模态数学推理研究提供了全面评估工具,也为未来LVLMs的发展指明了方向。
相关研究论文
- 1Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency阿里巴巴集团 DAMO Academy、湖畔实验室、浙江大学、新加坡科技与设计大学 · 2025年
以上内容由遇见数据集搜集并总结生成



