OmniWorld

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/InternRobotics/OmniWorld

下载链接

链接失效反馈

官方服务：

资源简介：

OmniWorld是一个用于4D世界建模的多领域和多模态数据集。它包括各种类型的数据，如RGB、深度、光流、相机姿态和文本注释。数据集的README文件详细介绍了数据集的结构、使用指南和许可证。它还解释了目录结构以及如何下载和使用数据集。此外，还包括了关于许可证和第三方内容的特别说明。

OmniWorld is a multi-domain and multimodal dataset designed for 4D world modeling. It encompasses various types of data, including RGB, depth, optical flow, camera poses, and textual annotations. The dataset's README file provides a detailed introduction to the dataset's structure, usage guidelines and license, and elaborates on the directory structure as well as how to download and utilize the dataset. Additionally, it includes special notes concerning licenses and third-party content.

创建时间：

2025-09-14

原始信息汇总

OmniWorld 数据集概述

基本信息

数据集名称: OmniWorld
许可证: CC BY-NC-SA 4.0
规模: 大于1TB
任务类别: 文本到视频、图像到视频、图像到3D、机器人技术、其他
语言: 英语

数据集描述

OmniWorld是一个多领域、多模态的4D世界建模数据集，专注于提供丰富的视觉和文本注释。

数据组织结构

数据集按以下结构组织：

DATA_PATH/ ├─ annotations/ │ ├─ OmniWorld-Game/ │ │ ├─ b04f88d1f85a/ │ │ ├─ 52e80f590716/ │ │ └─ …
│ ├─ OmniWorld-DROID/ │ └─ … ├─ metadata/ │ ├─ OmniWorld-Game_metadata.csv │ ├─ OmniWorld-DROID_metadata.csv │ └─ … ├─ videos/ │ ├─ OmniWorld-Game/ │ │ ├─ b04f88d1f85a/ │ │ ├─ 52e80f590716/ │ │ └─ … │ ├─ OmniWorld-DROID/ │ └─ … └─ README.md

数据内容

场景文件夹结构

每个场景包含以下数据：

b04f88d1f85a/ ├─ color/
├─ depth/
├─ flow/
├─ camera/
├─ subject_masks/
├─ gdino_mask/
├─ text/
├─ droidclib/
├─ fps.txt
└─ split_info.json

数据类型

RGB图像: PNG格式的彩色帧
深度图: 16位深度图，存储为无符号整数
光流: 包含水平分量和垂直分量
相机位姿: 包含内参和外参矩阵
前景掩码: 二进制掩码，白色表示主体，黑色表示背景
动态对象掩码: 每帧标记动态对象
结构化文本描述: 包含短描述、玩家角色描述、背景描述、相机运动描述等

下载方式

使用以下命令下载完整数据集： bash pip install --upgrade "huggingface_hub[cli]" hf download InternRobotics/OmniWorld --repo-type dataset --local-dir /path/to/DATA_PATH

使用限制

允许用途: 非商业研究和教育目的
禁止用途: 任何商业用途，包括将数据集用于商业产品或服务
第三方内容: 部分数据源自第三方游戏内容，原始游戏资产的知识产权归游戏开发商和发行商所有

最新更新

2025年9月16日: 发布了OmniWorld-Game的首批1.2k分割数据

搜集汇总

数据集介绍

构建方式

OmniWorld数据集通过系统性采集多源游戏环境中的视觉数据构建而成，涵盖RGB帧序列、深度图、光流场及相机位姿等多模态信息。每个场景被划分为高质量片段，采用分块压缩存储策略，每部分包含不超过2000张图像，并辅以结构化标注文件记录场景描述、动态对象掩码及相机参数。数据采集过程注重时空一致性，确保帧间对齐与标注精度。

使用方法

用户可通过HuggingFace Hub下载完整数据集或特定场景，使用命令行工具解压分块存储的压缩文件。数据按场景组织，包含颜色、深度、光流、相机参数等子目录。提供Python工具函数解析相机位姿、深度图及光流数据，支持直接加载为张量格式。标注文件采用JSON结构，包含分段帧索引、结构化文本描述及二进制掩码，兼容主流计算机视觉与深度学习框架。

背景与挑战

背景概述

OmniWorld数据集由上海人工智能实验室主导构建，旨在推动四维世界建模领域的发展。该数据集聚焦于多模态与多域场景理解，整合了文本到视频、图像到三维及机器人技术等前沿研究方向。其核心价值在于提供了大规模且高质量的四维时空数据，涵盖游戏引擎渲染场景与真实世界动态捕捉，为三维重建、动态场景分析与跨模态生成任务奠定了坚实基础。

当前挑战

构建过程中面临多模态数据对齐与标注一致性的技术挑战，需解决不同传感器数据的时间同步与空间标定问题。领域层面，该数据集致力于应对动态场景下的四维重建与语义理解难题，包括复杂遮挡处理、光照变化适应以及长序列时空关系的建模。此外，数据规模超过1TB，对存储、传输与计算效率提出了极高要求。

常用场景

经典使用场景

在计算机视觉与机器人领域，OmniWorld数据集为多模态四维世界建模提供了关键支撑。其经典应用场景集中于从单目或序列视觉输入中重建动态三维环境，支持文本到视频、图像到视频及图像到三维的生成任务。研究者利用其丰富的RGB帧、深度图、光流数据和相机位姿，训练模型理解复杂场景的几何结构与时空变化，尤其在处理动态物体与静态背景分离、相机运动估计等核心问题上表现卓越。

解决学术问题

该数据集显著推进了四维场景理解中的若干学术难题，包括动态场景重建、自监督深度估计、神经辐射场优化以及多模态对齐。通过提供高精度相机参数与稠密标注，它解决了传统方法在长序列跟踪中的累积误差问题，并为跨模态学习提供了结构化的文本-视觉对应关系。其意义在于建立了大规模、多领域的基准测试环境，推动了三维视觉与机器人感知算法的可复现性与可比性。

实际应用

在实际应用中，OmniWorld数据集为自动驾驶仿真、虚拟现实内容生成和机器人导航系统提供了真实感训练环境。其多模态数据流能够模拟复杂交互场景，例如车辆在动态交通中的路径规划，或机械臂在非结构化环境中的操作决策。通过合成带有物理属性与语义标注的场景，该数据集显著降低了真实世界数据采集的成本与风险，促进了技术从实验室向产业的转化。

数据集最近研究