MVPBench

github2025-06-05 更新2025-06-07 收录

下载链接：

https://github.com/CSU-JPG/MVPBench

下载链接

链接失效反馈

官方服务：

资源简介：

MVPBench是一个精心设计的基准测试，旨在通过视觉链式思维（CoT）严格评估视觉物理推理能力。每个示例包含交错的多图像输入，并要求不仅正确的最终答案，还需要一个连贯的、逐步的推理路径，基于演变的视觉线索。这种设置反映了人类如何随着时间的推移通过现实世界的物理过程进行推理。MVPBench包含1211个样本，总共4701张图像，涵盖独特和重复的图像。每个问题和相应的答案都是独特的，突出了数据集在各种物理推理场景中的广泛范围和深度。

MVPBench is a meticulously designed benchmark that rigorously evaluates visual physical reasoning capabilities via visual chain-of-thought (CoT). Each example consists of interleaved multi-image inputs, and requires not only a correct final answer but also a coherent, step-by-step reasoning path grounded in evolving visual cues. This setting mirrors how humans reason through real-world physical processes over time. MVPBench comprises 1,211 samples with a total of 4,701 images, including both unique and duplicate images. Every question and its corresponding answer are unique, highlighting the extensive scope and depth of the dataset across diverse physical reasoning scenarios.

创建时间：

2025-05-16

原始信息汇总

MVPBench数据集概述

基本信息

名称: MVPBench
主页: https://csu-jpg.github.io/MVPBench/
数据集地址: https://huggingface.co/datasets/CSU-JPG/MVPBench
论文地址: https://arxiv.org/abs/2505.24182
发布日期: 2025年5月22日（版本1.0）

数据集简介

MVPBench是一个专门设计用于评估多模态大语言模型（MLLMs）在视觉物理推理能力的基准数据集。该数据集通过视觉链式推理（CoT）的视角，要求模型不仅给出正确答案，还需提供基于视觉证据的连贯推理路径。

数据集特点

样本数量: 1211个样本
图像总数: 4701张（包含唯一和重复图像）
覆盖范围: 物理问题、物理实验、空间关系和动态预测等多个物理推理场景

数据结构

格式: JSONL
主要字段:
- id: 问题ID
- query: 问题文本
- original_scene: 原始场景信息（ID、图像路径、描述）
- key_step_1到key_step_n: 各推理步骤信息（ID、图像路径、结论文本）
- final_scene: 最终答案信息（ID、图像路径、标注文本）
- subject: 数据子集主题
- possible_chains: 所有可能的推理路径
- json_path: JSON文件路径

评估方法

评估指标: 基于图的CoT一致性指标
评估代码: 提供在GitHub仓库中

引用信息

bibtex @misc{dong2025seeingreasoningmvpbenchgraphbased, title={Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT}, author={Zhuobai Dong and Junchao Yi and Ziyuan Zheng and Haochen Han and Xiangxi Zheng and Alex Jinpeng Wang and Fangming Liu and Linjie Li}, year={2025}, eprint={2505.24182}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.24182}, }

联系方式

问题反馈: 通过GitHub Issues提交

搜集汇总

数据集介绍

构建方式

在视觉物理推理领域，MVPBench数据集的构建体现了对多模态大语言模型在复杂物理场景中推理能力的系统性评估需求。该数据集通过精心设计的视觉思维链（CoT）框架，整合了1211个样本和4701张图像，涵盖物理问题、实验、空间关系和动态预测等多个子领域。构建过程中采用多图像输入与交错式问题设计，每个样本包含原始场景、关键推理步骤和最终场景三个核心模块，并通过JSONL格式结构化存储，确保数据逻辑的完整性和可追溯性。特别引入基于图的CoT一致性指标，有效验证模型推理路径是否符合物理逻辑。

特点

MVPBench的突出特点在于其创新的多路径视觉物理推理评估体系。数据集通过独特的图结构思维链设计，要求模型不仅输出正确答案，还需生成符合物理定律的连贯推理过程。样本覆盖牛顿力学、流体动力学等经典物理场景，其中42%的问题需要至少三步推理，有效规避文本先验的捷径学习。数据多样性体现在图像复用策略上，相同视觉元素在不同物理语境下被重复利用，迫使模型建立视觉特征与物理概念的深层关联。每个问题配备所有可能推理路径的标注，为细粒度评估提供黄金标准。

使用方法

该数据集的使用遵循端到端的评估范式，研究者可通过Hugging Face平台获取JSONL格式的基准数据。典型工作流包含环境配置、数据加载和基于图结构的评估三阶段。使用conda创建专用Python环境后，用户需解析包含图像路径和推理步骤的嵌套JSON结构。评估时重点监测两个维度：最终答案准确率和思维链物理一致性得分，后者通过预定义的图匹配算法实现。数据集特别提供问题ID与学科标签的映射关系，支持针对特定物理子领域的定向性能分析。所有评估指标均开源实现，确保结果可复现性。

背景与挑战

背景概述

MVPBench是由CSU-JPG团队于2025年推出的多模态视觉物理推理基准数据集，旨在解决多模态大语言模型（MLLMs）在理解物理世界规律方面的核心挑战。该数据集由1211个样本组成，包含4701张图像，覆盖物理问题、物理实验、空间关系和动态预测等多个子领域。其创新性在于通过视觉思维链（CoT）框架，要求模型不仅输出正确答案，还需生成符合物理逻辑的逐步推理路径。该研究团队在arXiv上发表的论文揭示了当前先进模型如GPT-4o在视觉物理推理中的显著缺陷，MVPBench的建立为量化评估模型的物理常识推理能力提供了标准化测试平台。

当前挑战

MVPBench针对的领域挑战在于突破多模态模型对视觉物理规律的表层感知，要求其建立基于因果关系的深度推理能力。构建过程中面临双重困难：在数据层面需设计避免文本先验捷径的跨图像推理链，确保模型真正依赖视觉线索；在评估层面创新性地提出图式CoT一致性指标，需精确验证推理路径中各步骤的物理逻辑有效性。此外，动态场景中时空关系的建模、多路径推理的歧义消除等子任务，都对数据标注的严谨性和评估体系的鲁棒性提出了极高要求。

常用场景

经典使用场景

MVPBench数据集在视觉物理推理领域具有重要价值，其经典使用场景包括评估多模态大语言模型（MLLMs）在复杂物理场景中的推理能力。通过多图像输入和链式推理（CoT）设计，该数据集能够模拟真实物理过程的逐步推理路径，帮助研究者深入理解模型在视觉物理推理中的表现。其独特的图式一致性评估方法为模型推理逻辑的验证提供了科学依据。

实际应用

在实际应用中，MVPBench为开发具有物理世界理解能力的AI系统提供了重要测试平台。其应用场景涵盖智能教育系统中的物理问题解答、机器人环境交互中的物理推理，以及增强现实系统中对物理规律的实时理解。该数据集的多步推理设计特别适合评估模型在动态物理过程中的表现，为实际AI系统的物理推理能力优化提供了可靠基准。

衍生相关工作

围绕MVPBench已衍生出多项经典研究工作，包括基于图神经网络的视觉物理推理模型、多模态链式推理的评估框架，以及视觉物理常识知识的表示学习方法。这些工作进一步推动了视觉物理推理领域的发展，并为后续研究提供了重要参考。数据集提出的图式一致性评估指标也被广泛应用于其他多模态推理任务的评估中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集