VCBench

github2025-04-28 更新2025-04-29 收录

下载链接：

https://github.com/alibaba-damo-academy/VCBench

下载链接

链接失效反馈

官方服务：

资源简介：

VCBench数据集包含1720个问答对和6697张图片，旨在评估具有明确视觉依赖性的多模态数学推理任务。

The VCBench dataset encompasses 1720 question-answer pairs and 6697 images, designed to evaluate multimodal mathematical reasoning tasks with explicit visual dependencies.

创建时间：

2025-04-24

原始信息汇总

VCBench数据集概述

数据集简介

名称：VCBench
类型：多模态数学推理基准测试
特点：具有显式视觉依赖性的评估基准

数据集规模

包含1720个问答对$(Q,A^*)$
包含6697张图像

数据内容

评估17种不同的任务类别
测试五种模型能力：
- 时间推理
- 几何推理
- 逻辑推理
- 空间推理
- 模式识别

实验发现

测试了24种最先进的大视觉语言模型(LVLMs)
最佳视觉模型准确率不超过50%
揭示了多模态视觉依赖推理任务面临的重大挑战

评估与提交

提供自动评估方案
维护持续更新的排行榜
提交要求：需提供包含问题ID和模型响应的jsonl文件

获取方式

数据地址：https://huggingface.co/datasets/cloudcatcher2/VCBench
项目主页：https://alibaba-damo-academy.github.io/VCBench/

联系方式

Zhikai Wang：wangzhikai.wzk@alibaba-inc.com
Jiashuo Sun：gasolsun36@gmail.com

引用

bibtex @article{ }

搜集汇总

数据集介绍

构建方式

在数学推理与视觉依赖性研究领域，VCBench通过系统化构建流程实现了多模态评估基准的创新。该数据集采用严谨的标注框架，整合1720组问答对与6697张关联图像，覆盖17种任务类别。数据采集过程注重视觉元素与数学概念的显式关联，通过专家标注和交叉验证确保样本质量，最终形成具有时空维度、几何关系、逻辑链条等多层次视觉依赖性的结构化数据。

使用方法

研究者可通过Hugging Face平台获取标准化的数据集资源，包含结构化存储的图文对及元数据。评估流程需遵循官方提供的jsonl提交规范，将模型预测结果与标注的黄金答案进行多维度比对。该基准支持端到端的自动评估体系，用户可通过指定接口参与持续更新的排行榜。对于新型视觉语言模型的验证，建议结合任务类别细分分析，特别注意模型在几何变换、时序推理等典型视觉依赖场景的表现差异。

背景与挑战

背景概述

VCBench是由阿里巴巴达摩学院于2025年推出的多模态数学推理基准测试数据集，旨在评估具有显式视觉依赖关系的多模态数学推理任务。该数据集由Zhikai Wang和Jiashuo Sun等研究人员主导开发，包含1720个问答对和6697张图像，覆盖时间推理、几何推理、逻辑推理、空间推理和模式识别等17种任务类别。作为首个专注于视觉与数学推理交叉领域的基准测试，VCBench为评估大型视觉语言模型（LVLM）在多模态推理任务中的表现提供了标准化平台，填补了该领域基准测试的空白。

当前挑战

VCBench针对的核心挑战在于解决视觉依赖型数学推理这一复杂问题。在领域层面，现有视觉模型在人类表现接近完美的任务上准确率不足50%，揭示了多模态推理中视觉与数学知识融合的深度难题。数据集构建过程中，研究团队面临三大技术挑战：如何设计具有明确视觉依赖的数学问题框架，确保问题解答必须结合视觉信息；如何建立全面的评估体系，覆盖时间、空间、几何等多维度推理能力；以及如何保证数据质量，平衡问题难度与多样性。这些挑战使得VCBench成为推动多模态推理研究的重要催化剂。

常用场景

经典使用场景

在人工智能领域，多模态数学推理任务日益受到关注。VCBench数据集作为一项综合性基准测试，专门用于评估具有显式视觉依赖性的多模态数学推理能力。其经典使用场景包括测试大型视觉语言模型在时间推理、几何推理、逻辑推理、空间推理和模式识别等17个不同任务类别中的表现。通过1720个问答对和6697张图像的组合，研究者能够全面评估模型在视觉与数学推理结合任务中的综合能力。

解决学术问题

当前多模态推理研究面临视觉依赖与数学逻辑融合的挑战。VCBench通过精心设计的评估框架，解决了模型在基础层面整合视觉与数学推理能力的学术难题。该数据集揭示了即使最优视觉模型在人类水平表现接近完美的情况下，其准确率仍无法超过50%，凸显了该领域亟待突破的研究瓶颈。这一发现为后续研究指明了方向，推动了多模态推理模型的创新发展。

实际应用

在教育科技领域，VCBench数据集的实际应用价值显著。其评估框架可直接用于智能教育系统的开发，帮助提升AI辅导系统在数学可视化教学中的表现。在辅助学习工具设计中，该数据集能够验证系统处理几何图形、时间序列等视觉数学问题的能力。此外，在自动化解题系统研发中，VCBench提供的多模态评估标准为系统优化提供了可靠依据。

数据集最近研究