WorldCam-50h

Name: WorldCam-50h
Creator: 韩国科学技术院; 奥多比研究院; MAUM AI
Published: 2026-03-18 01:59:56
License: 暂无描述

arXiv2026-03-18 更新2026-03-19 收录

下载链接：

https://cvlab-kaist.github.io/WorldCam/

下载链接

链接失效反馈

官方服务：

资源简介：

WorldCam-50h是由韩国科学技术院、奥多比研究院和MAUM AI联合构建的大规模游戏数据集，包含3000分钟的真实人类游戏录像，数据来源于《反恐精英》等三款游戏。该数据集通过记录复杂场景下的玩家行为（如360°快速旋转）、标注相机轨迹和文本描述，为3D游戏世界建模提供几何约束基础。其创新性地采用李代数表示相机位姿，解决了动作控制与长期3D一致性的耦合问题，主要应用于交互式游戏引擎开发领域，旨在提升生成环境的动作精确性和空间连贯性。

提供机构：

韩国科学技术院; 奥多比研究院; MAUM AI

创建时间：

2026-03-18

原始信息汇总

WorldCam数据集概述

数据集名称

WorldCam-50h

核心描述

WorldCam-50h是一个包含50小时人类游戏视频的数据集，标注了相机位姿和文本描述。

关键特性

数据内容：包含3,000分钟的真实人类游戏视频。
标注信息：视频数据标注了相机轨迹和文本描述。
数据来源：采集自Xonotic和Unvanquished游戏。
许可协议：基于CC BY-SA 2.5和GPL v3许可证发布。

数据集样本与统计信息

示例游戏画面标注了相机轨迹和文本描述。
视频时长的分布情况。
线性速度（vx, vy, vz）的分布情况。
角速度（ωx, ωy, ωz）的分布情况。

搜集汇总

数据集介绍

构建方式

在交互式游戏世界建模领域，高质量数据集的匮乏长期制约着模型性能。WorldCam-50h的构建旨在解决这一瓶颈，通过采集真实人类游戏行为来支撑基础模型的训练。该数据集汇集了总计3000分钟的真实人类游戏录像，覆盖《Counter-Strike》、《Xonotic》和《Unvanquished》三款具有复杂三维环境和高交互性的游戏。数据采集过程注重行为多样性，参与者被要求执行导航、组合键鼠输入、快速相机旋转及场景重访等多种复杂操作，以充分捕捉人类玩家的动态行为模式。每段视频均经过精细处理，不仅通过先进视觉语言模型生成了描述全局布局、视觉主题和环境条件的详细文本标注，还利用几何感知模型估算了伪真实相机位姿轨迹，为模型提供了几何与语义的双重监督信号。

特点

WorldCam-50h的显著特点在于其规模、真实性与标注的丰富性。相较于以往依赖《Minecraft》等简化几何环境或内部闭源游戏数据的研究，该数据集首次大规模整合了开源与商业游戏的真实人类游戏录像，确保了视觉多样性与行为动态的真实性。数据集涵盖了从平缓导航到剧烈相机旋转的广泛行为谱，其记录的线速度和角速度分布反映了人类操作的复杂耦合特性。更为关键的是，每条数据均配备了详尽的文本描述与相机位姿注解，前者为生成过程提供了高层语义引导，后者则为模型学习动作与三维几何的精确耦合关系奠定了坚实基础。这种多模态、几何感知的数据结构，使其成为训练具备精确动作控制与长时程三维一致性能力的交互式世界模型的理想资源。

使用方法

WorldCam-50h数据集主要用于训练和评估像WorldCam这样的交互式游戏世界生成模型。在使用时，模型以前一帧（或短片段）的RGB观测、文本提示以及用户输入的动作序列作为条件，自回归地生成后续视频帧。数据集提供的文本标注在训练中被用作条件信号，以维持生成帧的视觉质量和场景风格一致性。而伪真实的相机位姿轨迹则扮演着核心角色：在训练阶段，它们被用于监督模型学习一个基于李代数的动作-相机映射函数，将原始的键鼠输入精确转换为SE(3)空间中的相对相机运动；在推理阶段，累积得到的全局相机位姿可作为空间索引，从长期记忆池中检索相关的历史潜在表示，从而在长时程导航中强制执行三维几何一致性。因此，该数据集通过其对齐的动作-位姿-文本三元组，共同支撑了模型在动作可控性、视觉质量和世界一致性三个维度的性能优化。

背景与挑战

背景概述

WorldCam-50h数据集由KAIST、Adobe Research及MAUM AI的研究团队于2026年联合创建，旨在为交互式三维游戏世界生成模型提供大规模、高质量的基准数据。该数据集的核心研究问题聚焦于解决现有交互式世界模型在精确动作控制与长时程三维一致性方面的不足。通过引入相机位姿作为统一的几何表征，该数据集支撑了将用户动作映射为精确六自由度相机运动并维持长期空间一致性的前沿方法研究。其包含来自《Counter-Strike》、《Xonotic》和《Unvanquished》等游戏的3000分钟真实人类游戏录像，并标注了相机轨迹与文本描述，显著推动了生成式人工智能在交互式三维环境模拟领域的发展，为构建功能完备的游戏引擎提供了关键数据基础。

当前挑战

WorldCam-50h数据集旨在解决的领域核心挑战是实现高保真、长时程且几何一致的交互式三维游戏世界生成，这要求模型能够精确响应用户的键盘与鼠标输入，并维持生成场景在长时间导航中的三维结构一致性。构建过程中的主要挑战包括：首先，缺乏大规模、高保真且可公开获取的真实人类游戏录像数据，现有数据集如Minecraft在视觉多样性和几何复杂性上受限，而商业游戏数据则往往因闭源许可阻碍研究的可复现性；其次，数据标注面临技术难题，需从二维游戏视频中准确估计并过滤出全局相机位姿作为伪真值，同时生成描述场景全局布局、视觉主题与环境条件的详细文本标注，以提供充分的生成引导信息。

常用场景

经典使用场景

在交互式三维游戏世界生成领域，WorldCam-50h数据集为训练和评估基于相机姿态的统一几何表征模型提供了关键支持。该数据集收录了来自《Counter-Strike》、《Xonotic》和《Unvanquished》等游戏的3000分钟真实人类游戏录像，涵盖了复杂导航、快速旋转及反向遍历等多种动态场景。每段视频均标注了详细的文本描述与伪真实相机轨迹，使得研究者能够基于精确的几何信号进行模型训练，从而在生成交互式游戏环境时实现高精度的动作控制与长时程三维一致性。

衍生相关工作

WorldCam-50h数据集的发布催生了一系列围绕相机姿态统一表征的经典研究工作。以WorldCam模型为代表，后续研究如GameCraft、Matrix-Game 2.0等均在数据集基础上优化了动作到相机的映射策略与长时程记忆检索机制。这些工作普遍采纳了数据集中提供的相机轨迹作为空间索引，通过姿态锚定的记忆池实现跨视角的三维一致性生成，进而推动了交互式世界模型在动作可控性、视觉质量与几何连贯性等方面的显著提升，形成了以几何感知为核心的新一代游戏生成范式。

数据集最近研究