World-R1
收藏数据集概述:World-R1 Prompt Dataset
World-R1 是一个用于文本到视频(Text-to-Video)世界模拟的纯提示词数据集,旨在通过强化学习提升视频生成中的3D一致性、视觉质量和运动多样性。该数据集由微软发布,仅包含英文提示词,不包含生成的视频、奖励标注或模型检查点。
基本信息
| 属性 | 内容 |
|---|---|
| 许可证 | MIT |
| 语言 | 英语 |
| 数据集大小 | n<10K |
| 数据来源 | 原始数据 |
| 标签 | 文本、数据集、文本到视频、视频生成、世界模拟、相机控制、3D一致性、强化学习 |
| 相关论文 | arXiv:2604.24764 |
| 项目主页 | https://aka.ms/world-r1 |
| 代码仓库 | https://github.com/microsoft/World-R1 |
数据集配置与划分
World-R1 提供两种配置,每种配置包含三个数据划分:
| 配置 | 描述 |
|---|---|
final |
基础提示词划分,用于训练、测试和动态场景正则化 |
enhanced |
扩展提示词变体,包含更丰富的场景细节和明确的相机运动描述 |
各配置的具体划分与样本量:
| 配置 | 划分 | 样本数量 | 文件路径 |
|---|---|---|---|
final |
train |
2,468 | data/final/train.jsonl |
final |
test |
42 | data/final/test.jsonl |
final |
dynamic |
500 | data/final/dynamic.jsonl |
enhanced |
train |
2,651 | data/enhanced/train.jsonl |
enhanced |
test |
300 | data/enhanced/test.jsonl |
enhanced |
dynamic |
515 | data/enhanced/dynamic.jsonl |
此外,原始文本文件保存在 raw/ 目录下,以确保可复现性。
数据结构
每个样本包含两个字段:
| 字段 | 类型 | 描述 |
|---|---|---|
id |
string |
稳定标识符,格式为 {config}-{split}-{index} |
prompt |
string |
用于文本到视频生成的英文提示词 |
数据加载示例
python from datasets import load_dataset
加载 final 配置
final = load_dataset("microsoft/World-R1", "final")
加载 enhanced 配置
enhanced = load_dataset("microsoft/World-R1", "enhanced")
加载单个划分
dynamic_prompts = load_dataset("microsoft/World-R1", "enhanced", split="dynamic")
预期用途
该数据集专为以下研究方向设计:
- 文本到视频生成与后训练
- 3D感知的强化学习视频生成
- 相机感知的提示词条件控制
- 动态场景正则化与评估
- 世界模拟与几何一致性研究的提示词套件
引用
若使用该数据集,请引用以下论文:
bibtex @article{wang2026worldr1, title={World-R1: Reinforcing 3D Constraints for Text-to-Video Generation}, author={Wang, Weijie and He, Xiaoxuan and Gu, Youping and Yang, Yifan and Zhang, Zeyu and He, Yefei and Ding, Yanbo and Hu, Xirui and Chen, Donny Y. and He, Zhiyuan and Yang, Yuqing and Zhuang, Bohan}, journal={arXiv preprint arXiv:2604.24764}, year={2026}, url={https://arxiv.org/abs/2604.24764} }



