World-R1纯文本数据集

Name: World-R1纯文本数据集
Creator: 浙江大学; 微软研究院
Published: 2026-04-28 01:59:56
License: 暂无描述

arXiv2026-04-28 更新2026-04-29 收录

下载链接：

https://aka.ms/world-r1

下载链接

链接失效反馈

官方服务：

资源简介：

World-R1纯文本数据集由微软研究院与浙江大学联合构建，专为增强视频生成模型的3D一致性而设计。该数据集包含多类别、多层级的相机运动控制文本指令，旨在通过强化学习优化模型对几何约束的隐式理解。数据通过合成生成，避免了真实3D数据的依赖，并采用去耦训练策略平衡刚体几何与动态场景的灵活性。其核心应用于文本到视频生成领域，解决现有模型在长序列和大视角运动中的几何失真问题，推动视频生成向可扩展的世界模拟演进。

The World-R1 plain-text dataset was jointly developed by Microsoft Research and Zhejiang University, specifically designed to improve the 3D consistency of video generation models. This dataset contains multi-category and multi-level text instructions for camera motion control, aiming to optimize the model's implicit comprehension of geometric constraints through reinforcement learning. All data in this dataset is synthetically generated, eliminating reliance on real 3D data, and a decoupled training strategy is employed to balance the flexibility between rigid-body geometry and dynamic scenes. Its core application lies in the text-to-video generation domain, where it addresses the geometric distortion issues of existing models during long-sequence and wide-angle camera motion, thereby advancing the development of video generation toward scalable world simulation.

提供机构：

浙江大学; 微软研究院

创建时间：

2026-04-28

搜集汇总

数据集介绍

构建方式

World-R1纯文本数据集的构建核心在于解耦几何约束学习与固有视觉偏见的关联。研究团队借助Gemini强大的指令遵循与创意生成能力，通过自动化流水线合成约3000条高质量场景描述。构建过程中采用了层级化提示工程策略，确保覆盖自然景观、城市建筑、微观世界及奇幻风格等多元视觉域。每一条描述均通过预先定义的动作空间与物理合理性原则进行配对，例如为隧道场景分配推近运动以强化视差效果，从而使模型能够在不依赖固定视觉先验的前提下，学习广袤多样的世界模拟知识。

特点

该数据集的核心特点在于其纯粹的文本形态与层次化的控制复杂度。通过完全摒弃对真实视频数据的依赖，该设计有效阻断了特定视域分布对几何学习的干扰，促使模型专注于内在的物理规律内化。数据集引入了多级控制维度，涵盖隐式运动、单一方向指令及复杂组合轨迹，从而支持模型在从简单到困难的渐进式难度中习得符合物理法则的生成能力。此外，数据内部涵盖静态刚性场景与高熵动态场景，为后续周期性解耦训练提供了精准的素材基础。

使用方法

该数据集专门用于视频生成模型的后训练阶段，以强化其世界模拟能力。具体使用时，模型以文本描述为条件，通过Flow-GRPO强化学习框架进行优化。训练过程中，数据集与精心设计的复合奖励系统相配合，其中3D感知奖励通过预训练基础模型进行几何一致性评估，而通用奖励则确保视觉质量。配合周期性解耦训练策略，模型在主要阶段使用完整奖励学习刚性约束，每隔一定步数则切换至仅含通用奖励的动态子集微调，有效平衡了静态几何与动态流畅性之间的矛盾。

背景与挑战

背景概述

该数据集由浙江大学与微软研究院的研究团队于2026年联合构建，核心目的在于解决文本到视频生成模型中普遍存在的几何不一致性问题。现有视频基础模型虽能合成高保真视觉内容，却因缺乏对真实世界三维几何结构的固有理解，在面临大幅相机运动或长镜头场景时，常产生物体畸变、消失等几何幻觉。为突破这一瓶颈，研究者提出World-R1框架，通过强化学习将三维约束注入视频生成过程。该数据集作为框架的核心组成部分，专门设计用于解耦物理学习与视觉偏差，通过纯文本形式引导模型在不依赖昂贵三维资产或架构修改的前提下，内化几何一致性法则。其构建标志着视频生成从二维帧预测向可扩展世界模拟器的关键范式转变。

当前挑战

该数据集面临的核心领域挑战在于弥合视频生成模型与三维世界建模之间的鸿沟：传统方法或通过架构修改注入三维先验，但计算成本高昂且限制模型扩展性与生成多样性；或依赖静态三维数据集进行监督训练，却难以兼顾动态场景的流动性。数据集构建过程中亦遭遇多重困难：首先，需保证生成的文本提示在涵盖自然景观、城市建筑、微观世界等多视觉域的同时，具备物理上合理的相机运动与场景几何配对，这对数据多样性与物理一致性提出严苛要求。其次，为应对强化学习训练中严格三维约束可能抑制非刚性动态生成的问题，数据集需刻意平衡静态几何与动态场景的比例。此外，如何设计层次化的相机控制复杂度（从隐式运动到复合轨迹）以支持渐进式学习，亦是构建过程中的关键瓶颈。

常用场景

经典使用场景

World-R1纯文本数据集的核心使用场景在于为视频生成模型提供一种脱离视觉偏好的几何约束学习途径。该数据集由约3000条精心设计的纯文本描述构成，涵盖自然景观、城市建筑、微观世界与超现实幻想等多个视觉领域，并按照相机运动复杂度系统分类为隐式运动、单方向指令与复合轨迹等层级。研究者通过将这一纯文本语料与强化学习框架Flow-GRPO相结合，使视频基础模型能够在不依赖大规模3D标注数据或昂贵架构改造的前提下，从语言指令中内化三维几何规律，进而输出具有严格物体恒存性与透视一致性的视频序列。

解决学术问题

该数据集有效解决了当前视频生成领域长期困扰的几何幻觉与时空不一致问题。现有模型虽然能够合成高保真画质，却在大幅相机运动或长时域场景中频繁出现物体变形、消失或结构扭曲等现象，根源在于其仅模拟了像素层面的表面相关性而缺乏对真实世界三维几何的深层理解。World-R1纯文本数据集通过将物理约束的学习从特定视频分布中解耦出来，使得模型能够在强化学习框架下借助预训练的3D基础模型与视觉语言模型提供的奖励信号自主习得三维一致性，从而将视频生成器从二维帧预测器转变为几何一致的世界模拟器，为世界模型的构建开辟了新范式。

衍生相关工作

World-R1纯文本数据集的独特设计催生了一系列富有启发性的后续研究方向。该数据集首次证明了纯文本语料足以作为强化学习的奖励信号来源，引导模型习得三维空间一致性，这激励了研究者探索更高效的数据生成策略与更丰富的场景描述模板。基于其多层级相机控制分类体系，后续工作尝试引入更复杂的交互式轨迹生成机制，并拓展至光照变化与物体动态等更细粒度的物理约束学习。此外，该数据集的周期性解耦训练策略也被借鉴到多模态对齐研究中，用于平衡刚性几何与柔性动力学之间的竞争关系，推动了视频生成模型向更具普适性的世界模拟器方向持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集