CVPR-2026-WorldModel-Track-Dataset

github2026-03-24 更新2026-03-12 收录

下载链接：

https://github.com/open-gigaai/CVPR-2026-Workshop-WM-Track

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个任务，每个子任务数据集提供三个功能分割：训练分割提供完整的真实视频和轨迹用于监督学习；视频质量分割仅提供第一帧和完整轨迹以基准条件视频生成；评估器分割仅提供初始帧和状态以支持闭环VLA（视觉-语言-动作）交互和评估。

This dataset consists of multiple tasks. Each subtask dataset provides three functional splits: the training split offers full ground-truth videos and trajectories for supervised learning; the video quality split only provides the first frame and complete trajectories for benchmarking conditional video generation; the evaluator split only provides initial frames and states to support closed-loop Vision-Language-Action (VLA) interaction and evaluation.

创建时间：

2026-03-07

原始信息汇总

CVPR-2026-Workshop-WM-Track 数据集概述

数据集基本信息

数据集名称: CVPR-2026-Workshop-WM-Track 数据集
所属竞赛/研讨会: GigaBrain Challenge 2026 CVPR Workshop 的 World Models Track
主要用途: 用于世界模型的训练与评估，支持视觉-语言-动作交互
许可证: Apache 2.0
数据集托管地址: https://huggingface.co/datasets/open-gigaai/CVPR-2026-WorldModel-Track-Dataset
模型托管地址: https://huggingface.co/collections/open-gigaai/cvpr-2026-worldmodel-track
排行榜地址: https://huggingface.co/spaces/open-gigaai/CVPR-2026-WorldModel-Track-LeaderBoard

数据集内容与结构

数据集包含多个任务，每个任务的数据集提供三种功能划分：

数据划分详情

划分	真实视频	轨迹数据	初始状态/姿态	主要用途
Train	✅	✅	✅	模型训练
Video Quality	❌	✅	✅	视频质量基准测试
Evaluator	❌	❌	✅ (仅初始)	世界模型评估与VLA交互

文件目录结构

每个任务的子目录遵循以下结构：

task/ ├── train/ # 主训练数据 │ ├── metas/ # 包含任务指令的JSON文件 │ │ ├── episode_0.json │ │ └── ... │ ├── trajectories/ # 状态序列 (.pkl) │ │ ├── episode_0.pkl │ │ └── ... │ └── videos/ # 多视角视频录制 (.mp4) │ ├── cam_high/
│ │ ├── episode_0.mp4 │ │ └── ... │ ├── cam_left_wrist/
│ └── cam_right_wrist/ ├── evaluator/ # 作为评估器的测试集 │ ├── episode_0/ # 测试片段初始状态 │ │ ├── cam_high.png # 参考图像（高视角） │ │ ├── cam_left_wrist.png │ │ ├── cam_right_wrist.png │ │ ├── meta.json
│ │ └── initial_state.pkl │ └── ...
└── video_quality/ # 视频质量评估集 ├── episode_0/
│ ├── cam_high.png │ ├── cam_left_wrist.png │ ├── cam_right_wrist.png │ ├── meta.json │ └── traj.pkl └── ...

训练数据附加信息

除了真实视频外，训练片段还提供深度图和模拟器渲染。

基准模型与训练框架

训练框架: 使用 GigaTrain (https://github.com/open-gigaai/giga-train)
数据集加载框架: 使用 GigaDataset (https://github.com/open-gigaai/giga-datasets)
模拟器: 使用 Robotwin2.0 模拟器将动作渲染为图像

评估与提交

推理模式

离线模式: 世界模型直接使用轨迹数据生成未来视频帧，用于视频质量基准测试。
在线模式: 世界模型与策略在闭环中实时运行，用于评估器基准测试，支持下游VLA代理。

输出结构

推理后生成以下结构的输出：

outputs ├── task4 │ ├── video_quality_eval │ │ ├── concat_episode_0.mp4 │ │ ├── episode_0.mp4 │ │ └── ... │ └── evaluator_test │ ├── concat_episode_0.mp4 │ ├── episode_0.mp4 │ └── ... └── ...

提交要求

按照世界模型赛道排行榜的说明，将所有任务生成的视频打包并按要求格式提交。

搜集汇总

数据集介绍

构建方式

在机器人仿真与视觉语言动作交互研究领域，数据集的构建需兼顾多模态信息的对齐与任务导向的多样性。CVPR-2026-WorldModel-Track-Dataset通过系统化的数据采集流程，整合了多视角视频录制、机器人状态轨迹以及任务元数据。其构建过程依托于Robotwin2.0仿真平台，在多个任务场景下同步捕获高清相机、左右腕部相机的视觉流，并记录对应的关节位置与动作序列。每个任务子集均经过结构化组织，形成训练、视频质量评估与评测器三个功能分割，确保了数据在监督学习、条件生成与闭环交互评估中的适用性。此外，训练部分还额外提供了深度图与仿真渲染结果，为模型训练提供了更丰富的监督信号。

使用方法

使用该数据集进行世界模型研究需遵循其提供的标准化流程。研究人员首先需配置基础环境，安装GigaTrain训练框架与GigaDataset数据加载工具，并搭建Robotwin2.0仿真器以支持渲染。数据预处理通过专用脚本将原始数据打包为框架可读格式，并可选择针对特定任务或全任务进行训练。训练阶段通过修改配置文件调整设备分配、保存间隔等参数，并启动训练脚本以优化模型参数。推理阶段支持离线和在线两种模式：离线推理直接利用轨迹数据生成未来帧，用于视频质量评估；在线推理则需启动仿真服务器与策略服务器，实现世界模型与策略的闭环交互，以评测模型在真实动作分布下的预测能力。最终生成的视频可按指定格式提交至官方排行榜进行量化比较。

背景与挑战

背景概述

在具身智能与机器人学习领域，构建能够准确预测动态环境演化的世界模型是推动智能体实现高级认知与规划的核心基石。CVPR-2026-WorldModel-Track-Dataset由GigaAI研究团队为2026年CVPR研讨会GigaBrain挑战赛的世界模型赛道创建，旨在为多任务机器人操作提供大规模、多模态的仿真与真实数据支持。该数据集涵盖了丰富的任务场景，通过提供包含多视角视频、轨迹状态及深度信息在内的完整标注，为训练能够理解物理交互与视觉动态的世界模型奠定了数据基础。其设计紧密关联当前机器人学习的前沿议题，即如何使模型在部分可观测环境中进行精确的状态预测与序列生成，从而赋能视觉-语言-动作智能体在复杂环境中的闭环决策与执行。

当前挑战

该数据集致力于应对机器人操作任务中世界模型构建所面临的核心挑战，即在多模态、高维度的序列数据中学习可泛化的动态规律，并支持智能体在仿真与真实环境间的知识迁移。具体挑战体现在两个方面：其一，在领域问题层面，模型需从有限的初始状态与指令出发，精准预测长时程的视觉帧序列与物理状态演变，同时处理多相机视角的时空对齐与一致性保持，这对模型的表征学习与长期依赖建模能力提出了极高要求。其二，在构建过程中，数据采集需协调多传感器同步记录，确保视频、轨迹与深度信息在时间戳上的精确对齐；此外，为支持在线评估与闭环交互，数据划分需兼顾监督训练、视频生成质量评测以及作为评估器的闭环验证需求，这增加了数据标注、组织与验证的复杂性。

常用场景

解决学术问题

该数据集旨在应对机器人学习与生成式人工智能交叉领域中的核心挑战，即如何构建能够准确预测复杂物理交互动态、并支持高层任务规划的世界模型。它通过提供真实机器人操作场景下的多模态同步数据，解决了以往仿真环境与现实数据之间存在鸿沟的问题，使得模型能够学习到更精确的传感器观测与动作状态之间的映射关系。其意义在于为评估世界模型的泛化性、长时程预测精度及其在闭环决策中的实用性，提供了一个标准化、可复现的基准平台，推动了具身智能中动力学建模与因果推理研究的深入发展。

实际应用

超越纯学术探索，该数据集支撑的世界模型技术具有广泛的实际应用前景。在工业自动化场景中，此类模型可用于预测机械臂执行装配或分拣任务时的视觉结果，从而在虚拟环境中进行安全的策略预演与优化。在服务机器人领域，它能够帮助机器人理解并预测与家庭环境的交互后果，例如操作物体后的状态变化，进而提升任务执行的可靠性与安全性。此外，该数据集也为开发数字孪生系统和沉浸式训练模拟器提供了高质量的数据源，加速了机器人技术在真实世界中的部署与适应过程。

数据集最近研究