MultiWorldData

github2026-04-21 更新2026-04-23 收录

下载链接：

https://github.com/CIntellifusion/MultiWorld

下载链接

链接失效反馈

官方服务：

资源简介：

MultiWorld发布包含两部分：It Takes Two游戏视频和Robotics视频。所有.tar存档都存储在同一个数据集仓库中。

MultiWorld release consists of two parts: It Takes Two gameplay videos and robotics videos. All .tar archives are stored in the same dataset repository.

创建时间：

2026-04-20

原始信息汇总

MultiWorld 数据集概述

数据集基本信息

数据集名称：MultiWorld
核心内容：用于多智能体多视角视频世界建模的统一框架数据集。
主要目标：实现对多个智能体的精确控制，同时保持多视角一致性。

数据集构成

数据集包含两部分：

It Takes Two 游戏视频
机器人学视频

数据获取方式

数据集以 .tar 归档文件形式存储，可通过以下平台下载：

ModelScope：https://modelscope.cn/datasets/HaoyuWuRUC/MultiWorldData
Hugging Face：https://huggingface.co/datasets/Haoyuwu/MultiWorldData

下载并运行预处理脚本 preprocess/untar_chunks.sh 后，数据将被解压至以下目录：

data/ittakestwo_release/ （It Takes Two 数据集）
data/robots_release/ （机器人学数据集）

引用信息

若使用本数据集，请引用以下论文：

@article{wu2025multiworld, title={MultiWorld: Scalable Multi-Agent Multi-View Video World Models}, author={Wu, Haoyu and Yu, Jiwen and Zou, Yingtian and Liu, Xihui}, journal={arXiv preprint arXiv:2604.18564}, year={2026} }

搜集汇总

数据集介绍

构建方式

MultiWorld数据集构建于多智能体多视角视频世界建模的前沿领域，其核心在于整合了两种异构数据源：游戏视频与机器人操作视频。具体而言，数据集囊括了《It Takes Two》游戏的高质量多视角视频片段，以及真实机器人执行任务时捕获的多角度视觉序列。这些原始视频经过系统性的预处理流程，包括分块压缩与归档存储，最终形成结构化的数据档案，便于分布式下载与高效提取。数据集的构建过程注重多智能体交互场景的覆盖度与多视角同步性，为后续模型训练提供了丰富且一致的时空对齐样本。

使用方法

使用MultiWorld数据集需遵循标准化的数据获取与预处理流程。研究者可通过ModelScope或HuggingFace平台认证后下载压缩数据包，执行提供的解压脚本将数据提取至本地指定目录。数据集按游戏与机器人两大类别分别存储，便于针对不同任务进行选择性加载。在模型推理阶段，用户需根据训练配置选择对应的检查点文件，通过分布式并行推理脚本指定推理步数、随机种子及输出路径，即可生成符合多智能体多视角一致性要求的视频序列。数据集与官方代码库深度集成，支持从数据预处理到模型评估的端到端研究流程。

背景与挑战

背景概述

在人工智能领域，视频世界模型旨在理解和预测动态环境中的视觉演变，而多智能体与多视角的协同建模一直是前沿难题。MultiWorld数据集由香港大学与SReal AI的研究团队于2026年创建，其核心研究问题聚焦于如何构建一个可扩展的统一框架，以实现对多个智能体的精确控制，同时保持跨摄像机视角的一致性。该数据集整合了《It Takes Two》游戏视频与机器人操作视频，通过引入智能体身份嵌入与自适应动作加权等创新机制，推动了多智能体视频生成与决策模拟的发展，为具身智能与仿真环境研究提供了重要的数据基础。

当前挑战

MultiWorld数据集致力于解决多智能体多视角视频世界建模中的核心挑战，即在复杂动态场景中实现对多个智能体的可控生成与跨视角视觉一致性。具体而言，领域问题的挑战包括如何准确建模智能体间的交互动力学，以及如何从部分观测中推断全局环境状态以消除视角歧义。在构建过程中，挑战则体现在大规模多视角视频数据的采集与对齐上，需确保不同摄像机视角间的时间同步与空间校准，同时处理游戏引擎与真实机器人平台产生的异构数据格式，以实现高质量、可扩展的数据集构建。

常用场景

经典使用场景

在视频世界建模领域，MultiWorld数据集为多智能体多视角视频生成提供了关键支持。该数据集整合了《It Takes Two》游戏视频与机器人操作视频，通过多视角同步记录，构建了丰富的交互场景。研究者利用其进行视频预测与生成任务，训练模型在给定智能体动作序列下，生成连贯且视角一致的多智能体视频序列，为复杂动态环境的模拟奠定了基础。

解决学术问题

MultiWorld数据集有效应对了多智能体视频生成中的视角一致性与智能体可控性难题。传统方法在多个智能体同时行动时，难以维持不同摄像机视角下的时空连贯性，且对单个智能体的精确控制能力有限。该数据集通过提供结构化多视角视频，支持开发如自适应动作加权等机制，使模型能分离智能体身份并协调其行为，从而提升生成视频的真实性与可控性，推动了视频世界模型在复杂交互场景中的理论进展。

实际应用

在实际应用层面，MultiWorld数据集为游戏内容生成、机器人仿真训练等领域提供了高质量数据源。游戏开发者可借助其生成多角色互动的预告片或动态场景，丰富游戏叙事；在机器人领域，该数据集能模拟多机器人协同作业的视觉环境，用于训练机器人的感知与决策系统，降低真实实验成本。其多视角特性尤其适用于虚拟现实与增强现实应用，为沉浸式体验创建逼真的多主体交互视觉内容。

数据集最近研究