OmniWorld
收藏arXiv2025-09-16 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/datasets/InternRobotics/OmniWorld
下载链接
链接失效反馈官方服务:
资源简介:
OmniWorld是一个大规模、多领域和多模态的数据集,专为4D世界建模而设计。该数据集由一个新收集的OmniWorld-Game数据集和跨越不同领域的几个精选公共数据集组成。OmniWorld-Game数据集包含超过96K个剪辑和超过1800万个帧,总时长超过214小时,提供了丰富的模态覆盖、更大规模和更真实的动态交互。OmniWorld旨在解决现有数据集在动态复杂性、多领域多样性和时空标注方面的不足,支持4D几何重建、未来预测和相机控制视频生成等关键任务。
OmniWorld is a large-scale, multi-domain, and multi-modal dataset designed specifically for 4D world modeling. This dataset comprises a newly-collected OmniWorld-Game dataset and several curated public datasets spanning diverse domains. The OmniWorld-Game dataset contains over 96K clips and more than 18 million frames, with a total duration exceeding 214 hours, and provides rich modal coverage, larger scale, and more realistic dynamic interactions. OmniWorld aims to address the limitations of existing datasets in terms of dynamic complexity, multi-domain diversity, and spatio-temporal annotation, supporting key tasks such as 4D geometric reconstruction, future prediction, and camera-controlled video generation.
提供机构:
上海人工智能实验室
创建时间:
2025-09-16
搜集汇总
数据集介绍

构建方式
在四维世界建模领域,数据质量直接决定了模型的时空感知能力。OmniWorld通过精心设计的采集与标注流程构建而成,其核心组成部分OmniWorld-Game采用游戏引擎实时渲染技术,利用ReShade工具链直接获取渲染过程中的深度信息,同时通过OBS捕获同步RGB图像。针对机器人、人类和互联网等不同领域,该数据集整合了多个公共数据集并开发了专门的模态补全方案,通过视频切片技术过滤动态模糊帧和特征不足片段,确保时序连贯性。多模态标注流程采用半自动化策略,结合前沿的视觉语言模型与几何计算方法,为每个视频序列生成了深度图、相机位姿、文本描述、光流和前景掩码五类关键注释。
特点
作为面向四维世界建模的大规模数据集,OmniWorld展现出显著的多维度优势。其数据规模达到300M+帧,覆盖模拟器、机器人、人类和互联网四大领域,场景类型横跨室内外自然环境与城市景观。多模态覆盖的完整性尤为突出,同时提供几何、运动与语义层面的五种核心注释,其中文本描述平均包含150-250个语义单元,远超现有视频文本数据集的信息密度。时序动态特性方面,OmniWorld-Game序列长度可达384帧,包含丰富的物体交互与复杂相机运动,场景视角兼顾第一人称与第三人称跟随,历史背景涵盖古代、现代与未来科幻等多种风格,为模型提供了极具挑战性的时空理解环境。
使用方法
OmniWorld为四维世界建模研究提供了系统的训练与评估框架。在三维几何基础模型方面,该数据集支持单目深度估计、视频深度估计和相机位姿估计等核心任务,研究者可通过端到端训练或微调策略提升模型在长序列动态场景中的几何一致性。针对相机控制视频生成任务,用户可基于提供的相机轨迹和文本描述训练扩散模型,实现复杂动态场景下的精确视角控制。基准测试集包含精心筛选的200个视频样本,评估指标涵盖几何精度指标(Abs Rel, δ<1.25)和相机控制误差(TransErr, RotErr)。数据加载采用标准化接口,支持按领域和模态灵活配置训练数据,同时提供完整的评估代码库确保实验可复现性。
背景与挑战
背景概述
OmniWorld数据集由上海人工智能实验室于2025年提出,旨在解决4D世界建模领域高质量数据的稀缺性问题。该数据集通过整合自采集的OmniWorld-Game合成数据与多个公共数据集,构建了覆盖模拟器、机器人、人类行为及互联网场景的多领域多模态资源。其核心研究聚焦于联合建模空间几何与时间动态,为三维几何重建、未来预测及相机控制视频生成等任务提供支撑,显著推动了通用世界模型的发展进程。
当前挑战
在领域问题层面,OmniWorld致力于应对复杂动态环境中长序列时空一致性的建模挑战,现有方法在处理高动态交互与多尺度几何重建时仍存在精度不足的问题。构建过程中,数据采集面临虚拟环境渲染精度与真实感平衡的难题,多模态标注需克服动态场景下相机位姿估计的稳定性问题,且需确保跨领域数据在模态覆盖与标注质量上的统一性。
常用场景
经典使用场景
在四维世界建模领域,OmniWorld数据集凭借其多领域覆盖与多模态特性,为复杂动态环境下的空间几何重建与时间演化分析提供了关键支撑。该数据集通过整合游戏引擎生成的合成数据与机器人、人类行为及互联网场景的公开数据,构建了包含深度图、相机位姿、文本描述等丰富标注的大规模资源,成为训练和评估三维几何基础模型与相机控制视频生成系统的核心实验平台。
衍生相关工作
基于OmniWorld的基准测试催生了多项经典研究进展,例如在三维几何基础模型领域,DUSt3R与CUT3R通过在该数据集上微调显著提升了长序列深度估计精度;相机控制生成方向,AC3D与CamCtrl借助其动态标注优化了视频生成中的时空一致性。这些工作共同验证了OmniWorld作为通用世界建模基石的推动作用,并为后续多模态联合训练范式树立了新的技术标准。
数据集最近研究
最新研究方向
在四维世界建模领域,OmniWorld数据集正推动前沿研究聚焦于动态场景的几何重建与时空一致性建模。该数据集通过融合游戏引擎合成数据与多领域真实场景,为三维几何基础模型和相机控制视频生成提供了前所未有的多模态训练资源。当前研究热点集中于利用其18.5M帧高精度标注(深度、相机位姿、光流等)突破长序列动态重建的瓶颈,例如在复杂交互场景中提升VGGT等模型的时空连贯性。同时,该数据集催生了针对动态相机轨迹与物理规律建模的新范式,显著增强了生成视频在真实世界场景中的物理合理性与控制精度,为自动驾驶、机器人交互等应用提供了关键数据支撑。
相关研究论文
- 1通过上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



