World-R1

Name: World-R1
Creator: Microsoft
Published: 2026-04-29 20:46:34
License: 暂无描述

Hugging Face2026-04-29 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/microsoft/World-R1

下载链接

链接失效反馈

官方服务：

资源简介：

World-R1 是一个专为文本到视频世界模拟设计的提示词数据集，与论文《World-R1: Reinforcing 3D Constraints for Text-to-Video Generation》配套发布。该数据集包含描述静态环境、动态场景和摄像机感知视频生成场景的英文提示词，旨在用于文本到视频模型在3D和运动约束条件下的后训练、评估和分析。数据集提供两种配置：final（基础提示词分割，用于训练、测试和动态场景正则化）和 enhanced（扩展提示词变体，包含更丰富的场景细节和明确的摄像机运动描述）。每个示例包含一个稳定的提示标识符（id）和一个提示字符串（prompt）。数据集规模包括多个分割，如 final 配置下的 2,468 个训练样本、42 个测试样本和 500 个动态样本，以及 enhanced 配置下的 2,651 个训练样本、300 个测试样本和 515 个动态样本。该数据集适用于文本到视频生成和后训练、3D感知强化学习、摄像机感知提示条件、动态场景正则化和评估，以及世界模拟和几何一致性研究。数据集仅包含文本提示词，不包含生成的视频、奖励注释、人类偏好标签或模型检查点。

World-R1 is a prompt dataset specifically designed for text-to-video world simulation, released alongside the paper World-R1: Reinforcing 3D Constraints for Text-to-Video Generation. The dataset contains English prompts describing static environments, dynamic scenes, and camera-aware video generation scenarios, intended for post-training, evaluation, and analysis of text-to-video models under 3D and motion constraints. The dataset offers two configurations: final (basic prompt segmentation for training, testing, and dynamic scene regularization) and enhanced (extended prompt variants with richer scene details and explicit camera motion descriptions). Each example includes a stable prompt identifier (id) and a prompt string. The dataset size includes multiple splits, such as 2,468 training samples, 42 test samples, and 500 dynamic samples under the final configuration, and 2,651 training samples, 300 test samples, and 515 dynamic samples under the enhanced configuration. The dataset is suitable for text-to-video generation and post-training, 3D-aware reinforcement learning, camera-aware prompt conditioning, dynamic scene regularization and evaluation, as well as world simulation and geometric consistency research. The dataset contains only text prompts and does not include generated videos, reward annotations, human preference labels, or model checkpoints.

提供机构：

Microsoft

创建时间：

2026-04-29

原始信息汇总

数据集概述：World-R1 Prompt Dataset

World-R1 是一个用于文本到视频（Text-to-Video）世界模拟的纯提示词数据集，旨在通过强化学习提升视频生成中的3D一致性、视觉质量和运动多样性。该数据集由微软发布，仅包含英文提示词，不包含生成的视频、奖励标注或模型检查点。

基本信息

属性	内容
许可证	MIT
语言	英语
数据集大小	n<10K
数据来源	原始数据
标签	文本、数据集、文本到视频、视频生成、世界模拟、相机控制、3D一致性、强化学习
相关论文	arXiv:2604.24764
项目主页	https://aka.ms/world-r1
代码仓库	https://github.com/microsoft/World-R1

数据集配置与划分

World-R1 提供两种配置，每种配置包含三个数据划分：

配置	描述
`final`	基础提示词划分，用于训练、测试和动态场景正则化
`enhanced`	扩展提示词变体，包含更丰富的场景细节和明确的相机运动描述

各配置的具体划分与样本量：

配置	划分	样本数量	文件路径
`final`	`train`	2,468	`data/final/train.jsonl`
`final`	`test`	42	`data/final/test.jsonl`
`final`	`dynamic`	500	`data/final/dynamic.jsonl`
`enhanced`	`train`	2,651	`data/enhanced/train.jsonl`
`enhanced`	`test`	300	`data/enhanced/test.jsonl`
`enhanced`	`dynamic`	515	`data/enhanced/dynamic.jsonl`

此外，原始文本文件保存在 raw/ 目录下，以确保可复现性。

数据结构

每个样本包含两个字段：

字段	类型	描述
`id`	`string`	稳定标识符，格式为 `{config}-{split}-{index}`
`prompt`	`string`	用于文本到视频生成的英文提示词

数据加载示例

python from datasets import load_dataset

加载 final 配置

final = load_dataset("microsoft/World-R1", "final")

加载 enhanced 配置

enhanced = load_dataset("microsoft/World-R1", "enhanced")

加载单个划分

dynamic_prompts = load_dataset("microsoft/World-R1", "enhanced", split="dynamic")

预期用途

该数据集专为以下研究方向设计：

文本到视频生成与后训练
3D感知的强化学习视频生成
相机感知的提示词条件控制
动态场景正则化与评估
世界模拟与几何一致性研究的提示词套件

引用

若使用该数据集，请引用以下论文：

bibtex @article{wang2026worldr1, title={World-R1: Reinforcing 3D Constraints for Text-to-Video Generation}, author={Wang, Weijie and He, Xiaoxuan and Gu, Youping and Yang, Yifan and Zhang, Zeyu and He, Yefei and Ding, Yanbo and Hu, Xirui and Chen, Donny Y. and He, Zhiyuan and Yang, Yuqing and Zhuang, Bohan}, journal={arXiv preprint arXiv:2604.24764}, year={2026}, url={https://arxiv.org/abs/2604.24764} }

搜集汇总

数据集介绍

构建方式

World-R1数据集由微软研究院构建，专为文本到视频的世界模拟任务设计。该数据集包含纯英文提示，覆盖静态环境、动态场景以及基于摄像机视角的视频生成情景。数据以两种配置呈现：'final'配置提供基础的训练、测试和动态场景正则化提示；'enhanced'配置则扩展了提示变体，融入了更丰富的场景细节和明确的摄像机运动描述。每个样本通过稳定的提示标识符和单一提示字符串组织，存储于JSONL格式文件中，确保了数据的可复现性和灵活加载。

特点

World-R1数据集的核心特点在于其聚焦于三维一致性约束与运动多样性，通过强化学习改进文本到视频生成中的三维几何保真度。数据集设计了动态场景正则化提示，以评估和优化模型在复杂动态下的表现。'enhanced'配置进一步增强了提示的多样性和描述精度，显式引入摄像机运动控制，使数据集成为研究三维感知视频生成和世界模拟的理想工具。其纯文本形式避免了生成视频或标注的干扰，专注于提示本身的质量与覆盖面。

使用方法

研究人员可通过HuggingFace的datasets库便捷加载World-R1数据集，使用'load_dataset'函数指定配置，如'final'或'enhanced'，并选择相应的数据分片（train、test、dynamic）。该数据集适用于文本到视频模型的后训练、评估与三维约束强化学习研究。用户可直接访问每个样本的'prompt'字段，将其作为生成模型的输入，以检验模型在静态描述、动态情景及摄像机运动条件下的表现。数据集不包含视频或奖励标注，专注于提供纯净的提示素材。

背景与挑战

背景概述

World-R1数据集由微软研究院的研究团队于2026年创建，旨在解决文本到视频生成领域中三维一致性与视觉质量、运动多样性之间的根本矛盾。该数据集聚焦于世界模拟与摄像机控制的核心研究问题，通过强化学习框架提升生成视频的几何保真度。作为公开可用的纯提示数据集，World-R1为视频生成后训练、评估与分析提供了标准化基准，在学术界与工业界具有显著的启发性价值，推动了三维感知视频生成研究的发展。

当前挑战

该数据集所应对的领域挑战在于，现有文本到视频模型在生成动态场景时往往忽略三维空间约束，导致物体变形、姿态不一致或摄像机运动不合物理规律，严重限制了生成内容的真实感。构建过程中，研究人员需精心设计涵盖静态环境、动态场景及摄像机运动描述的英文提示，并制定多样化的场景划分与增强策略，以平衡训练与评估的覆盖度与泛化性，确保数据集在三维一致性与运动多样性约束下具备有效性与可复现性。

常用场景

经典使用场景

World-R1数据集专为文本到视频的世界模拟任务而设计，其核心用途在于对视频生成模型进行面向三维一致性的后训练与评估。该数据集包含静态环境、动态场景及相机感知视频生成三类英文提示词，为研究者提供了测试模型在三维空间约束下生成效果的标准基准。通过在训练、测试与动态场景正则化三个子集上分别使用final和enhanced两种配置，用户可以灵活地研究提示词细节丰富度对视频生成质量的影响，尤其适合探索强化学习框架下如何平衡视觉保真度、运动多样性与几何一致性之间的关系。

衍生相关工作

围绕World-R1数据集，研究社区已衍生出多项具有里程碑意义的经典工作。其中最核心的便是其配套论文提出的World-R1框架，将强化学习引入视频生成模型的后训练阶段，通过三维约束奖励函数引导模型学习物体深度、空间布局与相机运动的物理真实性。此外，该数据集与Flow-GRPO等流程级强化学习工具紧密结合，催生了基于分组相对策略优化的三维感知视频生成方法。同时，World-R1也与Depth Anything 3、Wan2.1等基础模型形成协同，推动了多模态大模型在物理世界理解与生成方向上的新进展，为后续关于可编辑、可控制的视频世界模拟研究奠定了重要基石。

数据集最近研究