WorldModelBench

github2025-03-05 更新2025-03-04 收录

下载链接：

https://github.com/WorldModelBench-Team/WorldModelBench

下载链接

链接失效反馈

官方服务：

资源简介：

WorldModelBench是一个用于评估视频生成模型在世界建模能力方面的基准，它跨越了7个应用驱动的领域（包括机器人技术、驾驶、工业、人类活动、游戏、动画和自然）和56个子领域。每个领域都有50个精心挑选的提示，包括文本描述和初始视频帧，旨在为视频生成定制。

WorldModelBench is a benchmark for evaluating the world modeling capabilities of video generation models. It spans 7 application-driven domains including robotics, driving, industry, human activities, gaming, animation, and nature, alongside 56 sub-domains. Each domain contains 50 meticulously selected prompts, which consist of text descriptions and initial video frames, and are tailored specifically for video generation tasks.

创建时间：

2025-02-27

原始信息汇总

WorldModelBench 数据集概述

数据集简介

WorldModelBench是一个评估视频生成模型在世界建模能力方面的基准测试，涵盖了7个应用驱动的领域（包括机器人、驾驶、工业、人类活动、游戏、动画和自然），以及56个子领域。每个领域包含50个精心策划的提示，包括文本描述和视频的初始帧，专为视频生成而设计。

数据集结构

数据集包含以下文件和目录：

images/：视频的第一帧图片。
evaluation.py：评估脚本。
worldmodelbench.json：包含视频生成实例的测试集。

数据实例示例

数据集中的每个实例包含以下字段：

领域（domain）
子领域（subdomain）
文本描述（text_first_frame）
指令文本（text_instruction）
第一帧图片路径（first_frame）

使用说明

环境设置：按照VILA Installation Guide的说明克隆并安装VILA。
数据和模型准备：分别下载WorldModelBench测试集和评估器。
视频生成：根据提示生成视频，并保存为与first_frame相同名称的.mp4文件。
评估：运行evaluate.py脚本，指定视频生成模型和视频目录。

版权声明

数据集在标注过程中严格遵守了版权和许可规定，避免了使用禁止复制和分发的网站材料。若发现任何可能侵犯版权或许可规定的数据样本，请联系我们进行核实和移除。

联系方式

Dacheng Li: dacheng177@berkeley.edu
Yunhao Fang: yuf026@ucsd.edu
Song Han: songhan@mit.edu
Yao Lu: jasonlu@nvidia.com

引用

bibtex @article{Li2025WorldModelBench, title={WorldModelBench: Judging Video Generation Models As World Models}, author={Dacheng Li and Yunhao Fang and Yukang Chen and Shuo Yang and Shiyi Cao and Justin Wong and Michael Luo and Xiaolong Wang and Hongxu Yin and Joseph E. Gonzalez and Ion Stoica and Song Han and Yao Lu}, year={2025}, }

搜集汇总

数据集介绍

构建方式

WorldModelBench是一个针对视频生成模型世界建模能力的评估基准。该数据集整合了7个应用驱动领域（包括机器人、驾驶、工业、人类活动、游戏、动画和自然）及56个子领域，每个领域包含50个经过精心挑选的提示，这些提示由文本描述和初始视频帧组成，专门为视频生成而定制。数据集还提供了一个基于人类对齐的VLM（视觉语言模型）的评判器，用于自动评估模型生成的视频在指令遵循、常识和物理一致性方面的表现。

特点

该数据集的主要特点是涵盖了多个应用领域和子领域，具有广泛的适用性。每个实例都包含一个文本描述和一个初始视频帧，为视频生成提供了丰富的上下文信息。此外，数据集还提供了自动评估工具，使得评估过程更加高效和客观。在版权和许可方面，数据集严格遵循了来源网站的规则，确保了数据的合规性。

使用方法

使用WorldModelBench进行评估时，首先需要设置环境并安装VILA。然后，下载测试集和评判器。测试集包含350个测试实例，每个实例都包含一个领域、子领域、文本描述、初始视频帧和指令。用户需要根据这些信息生成视频，并将视频以与初始帧相同的名称保存。最后，通过运行evaluation.py脚本进行评估，评估结果将保存为worldmodelbench_results.json文件。用户可以将结果提交至指定邮箱，以参与排行榜的排名。

背景与挑战

背景概述

WorldModelBench乃是一项旨在评估视频生成模型在世界建模能力方面的基准测试，创立于2025年。该数据集由Dacheng Li、Yunhao Fang、Song Han及Yao Lu等研究人员共同开发，依托于其在视频生成模型评估领域的深入研究。其核心研究问题聚焦于如何准确评判视频生成模型在遵循指令、常识认知以及物理规律性方面的表现。该数据集的发布，对于推动视频生成模型在多个应用领域的精准评估，产生了显著影响。

当前挑战

该数据集在构建过程中遭遇了多项挑战，首要挑战是如何在七个应用驱动领域内构建出具有代表性的评估场景。其次，确保评估过程中的公平性、准确性和可重复性，也是一大难题。此外，数据集在遵守版权和许可规定的同时，还需保证数据的多样性和质量，这对于数据集构建团队而言，同样是一大挑战。

常用场景

经典使用场景

在视频生成模型研究领域，WorldModelBench作为一个评价世界建模能力的基准，其经典使用场景在于评估模型在遵循指令、常识理解和物理一致性三个方面的表现。通过提供包含文本描述和初始视频帧的提示，该数据集促使模型生成与真实世界相符的视频序列，以检验其世界模型的能力。

解决学术问题

WorldModelBench解决了如何全面、客观评估视频生成模型世界建模能力的问题。它通过跨越七个应用驱动领域和五十六个子领域的精心策划提示，为学术界提供了一种标准化的评价方法，有助于推动相关领域的研究进展和技术创新。

衍生相关工作

基于WorldModelBench，学术界已经衍生出一系列相关工作，包括但不限于对现有视频生成模型的改进、新型评估指标的开发以及跨领域世界模型的应用探索，这些工作进一步拓宽了世界模型在理论研究和实际应用中的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集