OmniWorld
收藏OmniWorld 数据集概述
数据集名称
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
主要特点
- 大规模:4000+小时,600K+序列,300M+帧
- 多领域:来源于模拟器、机器人、人类和互联网
- 多模态:深度图、相机位姿、文本描述、光流和前景掩码
OmniWorld-Game 子集
- 规模:214小时,96K视频片段,18M+帧
- 分辨率与多样性:720P RGB图像,来自广泛的动态游戏环境
- 全面标注:涵盖OmniWorld数据集的所有标注类型
基准评估
- 提供4D世界建模评估,包括3D几何预测和相机控制视频生成
- 当前最先进方法在复杂4D环境建模中仍存在显著局限性
- 在OmniWorld上微调现有SOTA方法可显著提升4D重建和视频生成任务性能
数据下载
可通过Hugging Face下载完整数据集: bash pip install --upgrade "huggingface_hub[cli]" hf download InternRobotics/OmniWorld --repo-type dataset --local-dir /path/to/DATA_PATH
数据结构
每个场景目录包含以下子目录和文件:
- color/:RGB帧(.png)
- depth/:16位深度图
- flow/:光流文件(flow_u_16.png / flow_v_16.png / flow_vis.png)
- camera/:相机参数(intrinsics + extrinsics)
- subject_masks/:前景掩码(按分割)
- gdino_mask/:动态对象掩码(每帧)
- text/:结构化描述(81帧段)
- droidclib/:粗略相机位姿(如需)
- fps.txt:源视频帧率
- split_info.json:帧分组信息
可视化工具
可使用visualize_pcd.py脚本将场景转换为3D点云:
bash
python scripts/visualize_pcd.py <your-data-path>/b04f88d1f85a --split_idx 0
许可证
- 采用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
- 部分数据源自第三方游戏内容,原始游戏资产的知识产权归游戏开发者和出版商所有
- 仅允许非商业研究和教育用途
引用
bibtex @misc{zhou2025omniworld, title={OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling}, author={Yang Zhou and Yifan Wang and Jianjun Zhou and Wenzheng Chang and Haoyu Guo and Zizun Li and Kaijing Ma and Xinyue Li and Yating Wang and Haoyi Zhu and Mingyu Liu and Dingning Liu and Jiange Yang and Zhoujie Fu and Junyi Chen and Chunhua Shen and Jiangmiao Pang and Kaipeng Zhang and Tong He}, year={2025}, eprint={2509.12201}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.12201}, }




