CVPR-2026-WorldModel-Track-Dataset
收藏CVPR-2026-Workshop-WM-Track 数据集概述
数据集基本信息
- 数据集名称: CVPR-2026-Workshop-WM-Track 数据集
- 所属竞赛/研讨会: GigaBrain Challenge 2026 CVPR Workshop 的 World Models Track
- 主要用途: 用于世界模型的训练与评估,支持视觉-语言-动作交互
- 许可证: Apache 2.0
- 数据集托管地址: https://huggingface.co/datasets/open-gigaai/CVPR-2026-WorldModel-Track-Dataset
- 模型托管地址: https://huggingface.co/collections/open-gigaai/cvpr-2026-worldmodel-track
- 排行榜地址: https://huggingface.co/spaces/open-gigaai/CVPR-2026-WorldModel-Track-LeaderBoard
数据集内容与结构
数据集包含多个任务,每个任务的数据集提供三种功能划分:
数据划分详情
| 划分 | 真实视频 | 轨迹数据 | 初始状态/姿态 | 主要用途 |
|---|---|---|---|---|
| Train | ✅ | ✅ | ✅ | 模型训练 |
| Video Quality | ❌ | ✅ | ✅ | 视频质量基准测试 |
| Evaluator | ❌ | ❌ | ✅ (仅初始) | 世界模型评估与VLA交互 |
文件目录结构
每个任务的子目录遵循以下结构:
task/
├── train/ # 主训练数据
│ ├── metas/ # 包含任务指令的JSON文件
│ │ ├── episode_0.json
│ │ └── ...
│ ├── trajectories/ # 状态序列 (.pkl)
│ │ ├── episode_0.pkl
│ │ └── ...
│ └── videos/ # 多视角视频录制 (.mp4)
│ ├── cam_high/
│ │ ├── episode_0.mp4
│ │ └── ...
│ ├── cam_left_wrist/
│ └── cam_right_wrist/
├── evaluator/ # 作为评估器的测试集
│ ├── episode_0/ # 测试片段初始状态
│ │ ├── cam_high.png # 参考图像(高视角)
│ │ ├── cam_left_wrist.png
│ │ ├── cam_right_wrist.png
│ │ ├── meta.json
│ │ └── initial_state.pkl
│ └── ...
└── video_quality/ # 视频质量评估集
├── episode_0/
│ ├── cam_high.png
│ ├── cam_left_wrist.png
│ ├── cam_right_wrist.png
│ ├── meta.json
│ └── traj.pkl
└── ...
训练数据附加信息
除了真实视频外,训练片段还提供深度图和模拟器渲染。
基准模型与训练框架
- 训练框架: 使用 GigaTrain (https://github.com/open-gigaai/giga-train)
- 数据集加载框架: 使用 GigaDataset (https://github.com/open-gigaai/giga-datasets)
- 模拟器: 使用 Robotwin2.0 模拟器将动作渲染为图像
评估与提交
推理模式
- 离线模式: 世界模型直接使用轨迹数据生成未来视频帧,用于视频质量基准测试。
- 在线模式: 世界模型与策略在闭环中实时运行,用于评估器基准测试,支持下游VLA代理。
输出结构
推理后生成以下结构的输出:
outputs ├── task4 │ ├── video_quality_eval │ │ ├── concat_episode_0.mp4 │ │ ├── episode_0.mp4 │ │ └── ... │ └── evaluator_test │ ├── concat_episode_0.mp4 │ ├── episode_0.mp4 │ └── ... └── ...
提交要求
按照世界模型赛道排行榜的说明,将所有任务生成的视频打包并按要求格式提交。



