WorldBench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/worldbenchmark/WorldBench

下载链接

链接失效反馈

官方服务：

资源简介：

WorldBench是一个用于评估现代世界模型和视觉语言模型在物理理解和预测方面能力的全新基准数据集。它包含两个部分：基于视频的部分和基于文本的部分。基于视频的部分由425个模拟场景的132帧视频组成，包含RGB、法线、深度、光流和分割信息。基于文本的部分为视频部分的子集，向181个视频添加了文本问题，包括选择题和二元问题。数据集按照不同的物理概念分为四个高级类别，每个类别包含3-5个场景，每个场景有25-50个变体。

WorldBench is a novel benchmark dataset for evaluating the physical understanding and predictive capabilities of modern world models and vision-language models. It consists of two components: a video-based component and a text-based component. The video-based component includes 132-frame videos of 425 simulated scenarios, containing RGB, normal, depth, optical flow, and segmentation information. The text-based component is a subset of the video-based component, with textual questions added to 181 of the videos, including multiple-choice questions and binary questions. The dataset is divided into four high-level categories based on distinct physical concepts, each category containing 3 to 5 scenarios, and each scenario having 25 to 50 variants.

创建时间：

2025-05-16

原始信息汇总

WorldBench数据集概述

数据集简介

WorldBench是一个用于评估现代世界模型和视觉语言模型对物理世界理解与预测能力的新基准测试，包含两个组成部分：

基于视频的基准测试
基于文本的基准测试

组成部分详情

1. 基于视频的基准测试

设计目的：评估视频到视频的世界基础模型（如Cosmos）
数据内容：
- 425个模拟场景的视频
- 每个视频长度：132帧
- 包含的数据类型：RGB、法线、深度、光流和分割
存储路径：/scenes
分类结构：
- 4个高级类别（对应不同物理概念）
- 每个类别包含3-5个场景
- 每个场景有25-50个变体

2. 基于文本的基准测试

数据来源：从视频基准测试中选取的181个视频
新增内容：基于文本的问题（包含多选题和二元问题）
存储路径：/textual_questions
文件结构：
- 4个JSON文件（每个类别对应一个文件）

搜集汇总

数据集介绍

构建方式

WorldBench作为评估世界模型物理理解能力的前沿基准，其构建过程体现了严谨的科学方法论。视频组件通过425个模拟场景生成132帧的多模态序列，涵盖RGB、法线、深度、光流和分割等视觉维度，每个场景设计25-50种参数化变体以覆盖物理规律的多样性。文本组件则从视频基准中精选181段素材，采用多选题与判断题相结合的命题方式，形成4个物理概念类别的结构化评估体系。

特点

该数据集最显著的特征在于其多模态评估框架的完整性。视频基准通过5种同步采集的感知数据流，为世界模型提供了立体化的物理表征空间；文本组件则构建起从视觉观察到语义推理的评估桥梁。4大物理概念类别下细分的3-5种子场景，配合系统化的参数变异策略，确保了测试样本在物理规律覆盖面的完备性与统计显著性。

使用方法

研究者可通过/scenes目录访问视频基准，按4个物理概念类别组织的数据结构支持模块化评估。文本组件存储于/textual_questions目录，4个JSON文件分别对应不同物理领域的问题集。评估时建议先通过视频基准测试模型的基础物理建模能力，再结合文本组件验证其跨模态推理水平，两类数据的时间对齐特性支持端到端联合评估方案的实现。

背景与挑战

背景概述

WorldBench作为新兴的基准测试数据集，由前沿研究团队于近年开发，旨在系统评估世界模型与视觉语言模型在物理理解与预测方面的能力。该数据集通过模拟场景中的多模态数据（包括RGB、法线、深度、光流及分割信息），为视频到视频预测任务提供了标准化评估框架。其创新性体现在将物理概念验证与多模态学习相结合，为计算机视觉与物理推理的交叉研究开辟了新途径。数据集涵盖425个模拟场景的132帧视频序列，并细分为4个高层物理概念类别，每个类别包含3-5个场景及25-50种变体，这种结构化设计显著提升了评估的系统性与可解释性。

当前挑战

WorldBench面临的挑战主要体现在两个维度：在领域问题层面，如何准确评估模型对复杂物理场景的推理能力仍存在困难，特别是涉及多物体交互与长期预测时，现有评估指标可能无法全面反映模型性能；在构建过程层面，模拟场景的物理真实性与多样性平衡构成主要挑战，既要保证场景符合物理规律，又需覆盖足够的变异度以检验模型泛化能力。文本问答子集的构建则需解决自然语言问题与视觉物理场景的精确对齐问题，这对标注质量和逻辑一致性提出了极高要求。

常用场景

经典使用场景

WorldBench作为评估世界模型和视觉语言模型物理理解能力的前沿工具，其视频基准通过425个模拟场景的多模态数据（包括RGB、法线、深度、光流和分割）为模型提供了丰富的训练与测试环境。研究人员利用其132帧的长序列视频，能够系统性评估模型在动态物理场景中的预测精度和泛化能力，特别是在物体运动轨迹预测、碰撞效果模拟等复杂物理交互任务中表现突出。

衍生相关工作

该基准已催生多项里程碑式研究，包括Cosmos等视频预测模型的迭代优化工作。MIT团队利用其深度信息开发了新型碰撞预测模块，而Meta基于文本问答组件构建的PhysQA数据集，则成为当前评估VLMs物理推理能力的黄金标准。这些衍生成果持续推动着具身智能与多模态理解的交叉研究进展。

数据集最近研究