V-ReasonBench

Name: V-ReasonBench
Creator: 新加坡国立大学、香港科技大学（广州）、香港大学、悉尼大学、香港中文大学、光速科技
Published: 2025-11-21 02:59:42
License: 暂无描述

arXiv2025-11-21 更新2025-11-22 收录

下载链接：

https://oahzxl.github.io/VReasonBench/

下载链接

链接失效反馈

官方服务：

资源简介：

V-ReasonBench是由多所顶尖学术机构联合构建的视频推理基准测试套件，专为评估生成式视频模型的认知能力而设计。该数据集包含326个精心设计的推理实例，涵盖结构化问题求解、空间认知、模式推理和物理动力学四大核心维度，通过程序化生成与真实场景相结合的方式构建。数据集采用初始-最终图像对的结构化表示，每个实例配备对应的问题标注，支持对9780个生成视频进行系统评估。该基准旨在推动视频模型在数学推理、战略规划、几何变换及物理规律理解等领域的可靠发展，为构建人类对齐的视觉推理系统提供标准化评估框架。

V-ReasonBench is a video reasoning benchmark suite jointly developed by multiple top academic institutions, specifically designed to evaluate the cognitive capabilities of generative video models. This dataset contains 326 carefully designed reasoning instances, covering four core dimensions: structured problem-solving, spatial cognition, pattern reasoning, and physical dynamics, and is constructed through a combination of procedural generation and real-world scenes. The dataset adopts a structured representation of initial-final image pairs, with each instance equipped with corresponding question annotations, enabling systematic evaluation of 9780 generated videos. This benchmark aims to promote the robust development of video models in fields such as mathematical reasoning, strategic planning, geometric transformation, and physical law understanding, and provides a standardized evaluation framework for building human-aligned visual reasoning systems.

提供机构：

新加坡国立大学、香港科技大学（广州）、香港大学、悉尼大学、香港中文大学、光速科技

创建时间：

2025-11-21

原始信息汇总

V-ReasonBench 数据集概述

数据集基本信息

名称: V-ReasonBench
目标: 评估视频生成模型在四个关键维度的推理能力
数据来源: 合成和真实世界图像序列

核心评估维度

结构化问题解决
空间认知
基于模式的推理
物理动力学

数据集特点

提供多样化且答案可验证的任务
任务具有可重现性、可扩展性和明确性
每个实例为初始-最终图像对
每个模型为每个任务生成五个视频用于pass@5评估

评估结果

评估了六个最先进的视频生成模型
揭示了不同维度推理能力的明显差异
包含视频模型与图像模型的对比分析
研究了视频持续时间对帧链推理的影响

技术贡献

提供统一且可重现的视频推理评估框架
分析常见的幻觉行为模式
支持开发具有更可靠、人类对齐推理能力的模型

相关资源

论文: https://arxiv.org/abs/2511.16668
代码: 可用（页面中提及但未提供具体链接）
BibTeX: 提供完整引用格式

搜集汇总

数据集介绍

构建方式

在视频生成模型快速发展的背景下，V-ReasonBench通过程序化合成与真实图像序列相结合的方式构建了评估框架。该数据集采用初始-最终图像对的结构，约90%的实例通过定制仿真环境生成，确保状态转换的明确性与可解性。每个实例均经过自动化验证与人工检查，形成了涵盖四类推理维度的326个实例，通过严格的阈值判定机制支撑可复现的大规模评估。

特点

该数据集的核心特征体现在多维度推理评估体系的设计上，涵盖结构化问题求解、空间认知、模式推理与物理动力学四大领域。通过链式帧推理范式，数据集将视频生成过程转化为可量化的认知轨迹，并创新性地采用掩码评估、网格分析与轻量视觉语言模型相结合的混合评分策略。这种设计既保持了评估效率，又通过任务特异性阈值实现了与人类判断的高度一致性，为视频推理能力提供了系统化度量标准。

使用方法

基于链式帧推理范式，研究者可将视频生成模型接入标准化评估流程。每个任务实例以初始图像和指令作为输入，模型需生成包含推理过程的视频序列，最终帧将作为答案载体接受评估。通过三类专项评估方法——针对物体边界任务的掩码比对、依赖空间结构的网格分析、以及适用于符号化任务的轻量视觉语言模型判读，系统将自动输出通过率指标。这种端到端的评估机制为模型推理能力的横向对比与纵向优化提供了统一基准。

背景与挑战

背景概述

V-ReasonBench由新加坡国立大学、香港科技大学（广州）等机构的研究团队于2025年联合推出，旨在系统评估生成式视频模型在结构化问题求解、空间认知、模式推理和物理动力学四个核心维度的推理能力。该数据集构建于链式帧推理范式之上，通过程序化生成与真实场景结合的方式创建了326个推理实例，为视频生成模型的认知能力评估提供了可复现的标准化框架，推动了视频推理研究从视觉保真度向认知能力衡量的范式转变。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决视频模型在复杂空间关系理解、抽象规则归纳和物理原理模拟中的认知鸿沟，特别是模型在保持视觉丰富性与结构准确性之间的平衡难题；在构建过程中，需克服视觉语言模型在网格结构化场景评估中的局限性，通过融合掩码评估、网格分析与轻量级VLM评估的混合策略，确保对细粒度空间关系和符号逻辑的精准度量。

常用场景

经典使用场景

在视频生成模型评估领域，V-ReasonBench通过构建结构化问题求解、空间认知、模式推理与物理动力学四大维度，为模型推理能力提供系统性验证框架。该数据集采用链式帧范式，将视频生成过程转化为多步推理轨迹，通过终帧评估机制高效衡量模型在动态视觉任务中的逻辑推演能力，成为检验生成式视频模型零样本推理性能的核心工具。

解决学术问题

该数据集解决了生成式视频模型缺乏标准化评估体系的学术困境，通过可验证答案任务设计填补了视频推理能力量化研究的空白。其构建的混合评估策略有效克服了视觉语言模型在细粒度空间关系识别中的局限性，为多模态推理研究提供了可复现的基准框架，推动视频生成模型从帧合成向认知行为建模的范式转变。

衍生相关工作

该数据集催生了链式帧推理机制的深入研究，启发了VChain等关键帧推理方法的发展。其构建的评估范式被拓展至时序幻觉检测、多模态思维链等方向，相关成果在视觉语言动作模型、时空绑定分析等领域持续产生辐射效应，形成视频推理研究的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集