five

OmniWorld

收藏
github2025-09-16 更新2025-09-17 收录
下载链接:
https://github.com/yangzhou24/OmniWorld
下载链接
链接失效反馈
官方服务:
资源简介:
OmniWorld是一个大规模、多领域、多模态数据集,专门为4D世界建模设计,包括4D几何重建、未来预测和相机控制视频生成。它具有大规模(4000+小时,600K+序列,300M+帧)、多样化领域(来自模拟器、机器人、人类和互联网)和丰富的多模态(深度图、相机姿态、文本描述、光流和前景掩码)等特点。

OmniWorld is a large-scale, multi-domain, and multi-modal dataset specifically designed for 4D world modeling, covering core tasks including 4D geometry reconstruction, future prediction, and camera-controlled video generation. It features three prominent characteristics: first, massive scale with over 4,000 hours of data, more than 600,000 sequences, and over 300 million frames; second, diverse data domains sourced from simulators, robotic systems, human activities, and the Internet; third, rich multi-modal content including depth maps, camera poses, text descriptions, optical flow, and foreground masks.
创建时间:
2025-09-15
原始信息汇总

OmniWorld 数据集概述

数据集名称

OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

主要特点

  • 大规模:4000+小时,600K+序列,300M+帧
  • 多领域:来源于模拟器、机器人、人类和互联网
  • 多模态:深度图、相机位姿、文本描述、光流和前景掩码

OmniWorld-Game 子集

  • 规模:214小时,96K视频片段,18M+帧
  • 分辨率与多样性:720P RGB图像,来自广泛的动态游戏环境
  • 全面标注:涵盖OmniWorld数据集的所有标注类型

基准评估

  • 提供4D世界建模评估,包括3D几何预测和相机控制视频生成
  • 当前最先进方法在复杂4D环境建模中仍存在显著局限性
  • 在OmniWorld上微调现有SOTA方法可显著提升4D重建和视频生成任务性能

数据下载

可通过Hugging Face下载完整数据集: bash pip install --upgrade "huggingface_hub[cli]" hf download InternRobotics/OmniWorld --repo-type dataset --local-dir /path/to/DATA_PATH

数据结构

每个场景目录包含以下子目录和文件:

  • color/:RGB帧(.png)
  • depth/:16位深度图
  • flow/:光流文件(flow_u_16.png / flow_v_16.png / flow_vis.png)
  • camera/:相机参数(intrinsics + extrinsics)
  • subject_masks/:前景掩码(按分割)
  • gdino_mask/:动态对象掩码(每帧)
  • text/:结构化描述(81帧段)
  • droidclib/:粗略相机位姿(如需)
  • fps.txt:源视频帧率
  • split_info.json:帧分组信息

可视化工具

可使用visualize_pcd.py脚本将场景转换为3D点云: bash python scripts/visualize_pcd.py <your-data-path>/b04f88d1f85a --split_idx 0

许可证

  • 采用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
  • 部分数据源自第三方游戏内容,原始游戏资产的知识产权归游戏开发者和出版商所有
  • 仅允许非商业研究和教育用途

引用

bibtex @misc{zhou2025omniworld, title={OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling}, author={Yang Zhou and Yifan Wang and Jianjun Zhou and Wenzheng Chang and Haoyu Guo and Zizun Li and Kaijing Ma and Xinyue Li and Yating Wang and Haoyi Zhu and Mingyu Liu and Dingning Liu and Jiange Yang and Zhoujie Fu and Junyi Chen and Chunhua Shen and Jiangmiao Pang and Kaipeng Zhang and Tong He}, year={2025}, eprint={2509.12201}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.12201}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与人工智能领域,构建高质量数据集是推动4D世界建模研究的关键。OmniWorld数据集通过整合来自仿真环境、机器人操作、人类行为及互联网的多元数据源,系统采集了超过4000小时视频、60万段序列及3亿帧图像数据。其构建过程注重多模态对齐,同步获取RGB图像、深度图、相机位姿、文本描述、光流及前景掩码,确保了数据在时空维度上的一致性与丰富性。
特点
作为面向4D世界建模的大规模多模态数据集,OmniWorld具备显著的规模与多样性优势。其涵盖合成与真实场景,包含720P高分辨率图像,并提供深度、光流、掩码、相机参数等全面注释。特别地,OmniWorld-Game作为高质量合成子集,进一步扩展了动态游戏环境的覆盖,为复杂时空建模任务提供了前所未有的数据支持与评测基准。
使用方法
研究者可通过Hugging Face平台直接下载OmniWorld数据集,使用提供的脚本工具进行数据加载与可视化。数据集按场景组织,包含颜色、深度、光流、相机参数等多模态子目录。用户可借助visualize_pcd.py脚本将场景转换为点云进行三维检视,或依据split_info.json结构划分帧序列,以支持4D重建、未来预测、相机控制视频生成等任务的模型训练与评估。
背景与挑战
背景概述
在计算机视觉与人工智能领域,四维世界建模作为新兴研究方向,旨在实现对动态三维场景的时空连续感知与重建。OmniWorld数据集由上海人工智能实验室联合浙江大学等机构于2025年推出,核心研究聚焦于多域多模态环境下的四维几何重建、未来预测及相机控制视频生成。该数据集涵盖4000余小时视频、60万序列与3亿帧数据,融合仿真器、机器人、人类行为及互联网多元来源,其深度图、相机位姿、文本描述与光流等丰富标注为复杂动态环境建模提供了前所未有的数据支撑,显著推动了自动驾驶、虚拟现实与机器人感知等领域的算法发展。
当前挑战
四维世界建模需解决动态场景中时空一致性的精确表达问题,包括复杂遮挡下的几何重建、长时序未来帧预测以及多视角视频生成中的相机轨迹控制等核心挑战。数据集构建过程中面临多源异构数据融合的技术难题,需协调仿真数据与真实数据的模态差异,同时确保数亿帧数据中深度信息、光流与掩码标注的精确对齐。此外,第三方游戏内容的知识产权约束与大规模数据存储及分布式处理要求,进一步增加了数据合规性与工程实现的复杂性。
常用场景
经典使用场景
在计算机视觉与机器人领域,OmniWorld数据集为4D世界建模提供了多模态的基准测试平台。其经典应用场景集中于动态环境下的时空连续性建模,研究者可利用其包含的RGB图像序列、深度图、光流数据和相机位姿等信息,训练神经网络进行复杂场景的四维重建与未来帧预测。该数据集尤其擅长模拟游戏引擎生成的高动态范围环境,为算法在非线性时空变化中的泛化能力提供验证基础。
解决学术问题
OmniWorld有效解决了多模态融合与跨域泛化两大核心学术难题。通过整合仿真器、机器人和互联网等多源数据,它突破了传统数据集在时空维度上的局限性,为4D几何重建与可控视频生成提供了统一评估框架。该数据集显著提升了动态物体分割、相机轨迹预测和场景语义理解等任务的精度,推动了神经渲染与物理推理相结合的新型研究方法发展。
衍生相关工作
OmniWorld催生了多个4D视觉领域的创新性研究,包括基于神经辐射场的动态场景重建NeuSD、时空一致性视频生成模型ChronoDiff以及跨模态相机控制算法CamCon。这些工作充分利用数据集的多模态特性,在场景解耦表示学习、长期运动预测和物理约束建模等方面取得突破,推动了计算机视觉与图形学的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作