Video-Reason/VBVR-MultiStep-Bench

Name: Video-Reason/VBVR-MultiStep-Bench
Creator: Video-Reason
Published: 2026-05-06 20:30:30
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/Video-Reason/VBVR-MultiStep-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VBVR-MultiStep-Bench是VBVR-MultiStep训练语料库的公开评估分割部分，设计用于长期多步图像到视频(I2V)推理评估。该数据集包含36个参数化任务，共180个实例，每个实例包含5个文件：first_frame.png（模型调节图像）、prompt.txt（自然语言任务合同）、final_frame.png（目标端点）、ground_truth.mp4（参考展开）和question_metadata.json（问题元数据）。数据集主要用于I2V系统在固定五工件合同下的轨迹级评估，支持盲人两两比较评估。数据集是完全合成的，不包含第三方受版权保护的内容。

The frozen 180-instance public evaluation split released alongside the VBVR-MultiStep training corpus. Designed for long-horizon multi-step image-to-video (I2V) reasoning evaluation. This dataset contains 36 parameterized tasks with 180 instances (5 per task × 36). Each instance includes five artifacts: first_frame.png (model conditioning image), prompt.txt (natural-language task contract), final_frame.png (target endpoint), ground_truth.mp4 (reference rollout), and question_metadata.json (question metadata). The primary use is trajectory-level evaluation of I2V systems under a fixed five-artifact contract, supporting blind human pairwise judging. The dataset is fully synthetic with no third-party copyrighted content embedded.

提供机构：

Video-Reason

搜集汇总

数据集介绍

构建方式

VBVR-MultiStep-Bench是一个面向长时程多步骤图像到视频推理任务的评估基准，隶属于VBVR视频推理套件。该数据集通过参数化任务模板与自动化数据生成器构建，涵盖导航、规划、约束满足问题、执行、几何与物理六大推理族，共36个定制化任务。每个实例均遵循五工件数据契约，包括条件图像、自然语言提示、目标图像、参考轨迹视频及问题元数据，确保评估的标准化与可复现性。数据集包含180个实例，每个任务均匀分布5个样本，并由顶层元数据Parquet文件实现高效索引。

特点

该数据集的核心特点在于其结构化、多维度的评估能力。每个实例仅向模型提供起始图像与文本提示，要求模型生成完整轨迹，同时保留目标图像与参考视频用于对比。评估通过盲人成对比较法，在过程正确性、参考忠实度与渲染质量三个独立维度上对模型输出进行评判。任务设计覆盖从离散运动到连续动力学的广泛推理类型，且全部为合成数据，无第三方版权内容或人类主体，确保了评估的公平性与可控性。

使用方法

使用者可通过Hugging Face的Pandas库直接加载顶层元数据文件，快速筛选目标任务、推理族或特定实例。对于单一实例的访问，可利用huggingface_hub库中的hf_hub_download函数，指定任务路径与文件名即可获取具体工件。该数据集主要服务于图像到视频生成模型的轨迹级评估，建议配合配套训练语料库VBVR-MultiStep使用，以构建完整的训练-评估闭环。

背景与挑战

背景概述

在视频理解与生成领域，长程多步推理能力的评估一直是关键瓶颈。VBVR-MultiStep-Bench数据集由Wang等研究团队在ICML 2026上提出的VBVR项目框架下创建，旨在系统性地评测图像到视频（I2V）模型在复杂时序推理任务中的表现。该基准包含180个精心设计的实例，覆盖导航、规划、约束满足问题（CSP）、执行、几何与物理六大推理家族，每个实例均提供五件套标准数据契约，包括条件帧、自然语言提示、目标帧、参考轨迹及元数据。其设计理念强调对模型轨迹级正确性的细粒度评估，通过盲人成对比较的三轴评判方法推动视频推理度量标准的演进，对多模态智能系统的发展具有重要影响。

当前挑战

该数据集面临的核心挑战在于多步推理任务的异质性与评估客观性。领域问题层面，现有I2V模型难以在长时间跨度内保持因果一致性，尤其在涉及约束传播、几何构建或物理守恒的连续动态场景中，模型易出现逻辑断裂或违反先验规则的情况，亟需标准化基准来诊断具体失效模式。构建过程中，如何生成可复现且无偏的推理测试样本成为难点：每个任务需确保参数化定义完整且形式化无歧义，同时避免偶然性解法；此外，为排除人类判断的主观噪声，设计了三轴对照协议并剔除部分CSP任务的评判池，但跨样本的推理难度均衡性与语义多样性仍对数据质量控制构成持续挑战。

常用场景

经典使用场景

VBVR-MultiStep-Bench作为视频推理领域的标杆性评估基准，其核心应用场景在于对图像到视频生成模型的多步长时序推理能力进行系统性评测。该数据集通过精心设计的36个参数化任务，覆盖导航、规划、约束满足、时序执行、几何构造与物理模拟六大推理家族，每个任务配备5个独立实例并遵循五元数据契约范式——包含条件帧、自然语言指令、目标终点、参考轨迹及元数据。研究者借助该基准，可在受控条件下精准衡量模型在长时序推理任务中的过程正确性、参考保真度与渲染质量三大核心维度，为视频生成模型的推理能力提供标准化的量化标尺。

实际应用

在产业应用层面，VBVR-MultiStep-Bench所倡导的多步推理评估框架为智能视频生成技术在机器人操作规划、自动驾驶场景推演、虚拟现实内容创作等高风险领域提供了可靠的质量保障工具。机器人系统可借助该基准验证视觉语言模型是否能够准确推演多步骤操作路径并规避障碍，自动驾驶仿真系统可评估生成模型对物理守恒律与碰撞约束的理解程度。此外，数字内容创作工具可参考该基准确保生成视频在复杂叙事结构下的逻辑一致性，从而提升面向教育、游戏与影视制作的自动化视频生成服务的可信度与实用价值。

衍生相关工作

围绕VBVR-MultiStep-Bench已衍生出一系列具有代表性的学术工作。作为VBVR超大规模视频推理套件的核心组件，该基准与配套的VBVR-MultiStep训练语料库（约36万样本）共同构成了视频推理研究的完整基础设施。其论文发表于ICML 2026，确立了以Wan2.2-I2V-A14B为基线模型的标准化评估流程。基于该基准的研究方向包括：面向长时序推理的视觉语言模型微调策略优化、基于过程正确性的人机协作评判机制改进，以及跨推理家族的泛化能力分析。这些衍生工作共同构建了视频推理领域的理论研究闭环，推动多步推理评估方法持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集