WildWorld

Name: WildWorld
Creator: Alaya Studio; 盛大AI研究院东京; 北京理工大学; 上海创新研究院; 深圳MSU-BIT大学; 清华大学
Published: 2026-03-25 01:58:25
License: 暂无描述

arXiv2026-03-25 更新2026-03-26 收录

下载链接：

https://shandaai.github.io/wildworld-project/

下载链接

链接失效反馈

官方服务：

资源简介：

WildWorld是由Alaya Studio与盛大AI研究院东京联合构建的大规模动态世界建模数据集，源自AAA级游戏《怪物猎人：荒野》的自动化采集。该数据集包含1.08亿帧高清画面，涵盖450余种战斗动作（移动/攻击/施法等），同步提供角色骨骼、世界状态、相机位姿及深度图等逐帧标注。通过定制化工具链实现自动化游戏过程录制与多源数据对齐，并衍生出WildBench基准测试以评估动作跟随与状态对齐能力，为研究状态感知的视频生成及长时序一致性建模提供了首个具备显式状态标注的游戏引擎级数据集。

WildWorld is a large-scale dynamic world modeling dataset jointly developed by Alaya Studio and Tokyo Research Institute of Shengda AI, automatically collected from the AAA-grade video game *Monster Hunter: Wilds*. This dataset includes 108 million frames of high-definition footage, covering over 450 types of combat actions such as movement, attack and spell casting. It also provides synchronized per-frame annotations including character skeletons, world states, camera poses and depth maps. Constructed via a customized toolchain for automated gameplay recording and multi-source data alignment, WildWorld further spawned the WildBench benchmark to assess action following and state alignment capabilities. As the first game-engine-level dataset with explicit state annotations, it offers a critical resource for research on state-aware video generation and long-term temporal consistency modeling.

提供机构：

Alaya Studio; 盛大AI研究院东京; 北京理工大学; 上海创新研究院; 深圳MSU-BIT大学; 清华大学

创建时间：

2026-03-25

原始信息汇总

WildWorld 数据集概述

数据集简介

WildWorld 是一个面向生成式动作角色扮演游戏（Generative ARPG）的大规模动态世界建模数据集，其核心特点是包含动作和显式状态信息。该数据集旨在解决现有数据集中动作空间多样性不足、且动作通常与视觉观察直接绑定而非通过底层状态进行中介的问题。

数据集特点

核心贡献：提供了带有显式状态标注的大规模动作条件世界建模数据。
数据来源：数据自动采集自写实风格的AAA级动作角色扮演游戏《Monster Hunter: Wilds》。
数据内容：包含RGB帧、对齐的深度图、相机位姿、骨架信息以及动作/状态的真实标注。
标注信息：同时提供了细粒度的动作级描述和样本级描述，使数据集适用于多种实验设置。

数据集规模与构成

数据量：包含超过 1.08亿 个标注帧。
动作多样性：涵盖 450多种 动作类型。
场景元素：
- 涉及 29种 怪物物种。
- 包含 4种玩家角色。
- 包含 4种武器类型。
- 包含 5个不同的开放世界场景。
场景分布：66%为战斗场景，34%为移动场景，动作分布呈现自然的长尾分布。

数据集构建流程

构建流程分为四个阶段：

自动化游戏进行：通过程序化UI导航和行为树驱动的AI实现。
多流录制：采用带时间戳的逐帧同步记录。
数据处理与过滤：移除短片段、镜头切换、卡顿、极端光照和遮挡情况。
分层标注：基于状态真实标注生成动作级描述，并通过大语言模型生成样本级摘要。

配套基准：WildBench

WildBench 是一个包含200个精选测试样本的综合基准，用于从四个维度评估交互式世界模型：

视频质量：运动平滑度、动态程度、美学质量、图像质量（使用VBench评估）。
相机控制：通过运动恢复结构（SfM）计算绝对轨迹误差（ATE）和相对位姿误差（RPE）。
动作跟随：评估生成视频是否忠实反映输入动作。
状态对齐：通过关键点跟踪评估生成状态与真实状态演变之间的对齐程度。

实验设置

在WildWorld数据集上评估了多种交互式视频生成方法，条件设置包括：

Baseline：Wan2.2-TI2V-5B，仅使用文本和图像生成视频，无显式控制信号。
CamCtrl：使用真实逐帧相机位姿进行相机条件生成。
SkelCtrl：使用渲染的骨架姿态视频进行骨架条件生成。
StateCtrl：联合使用相机、骨架和世界状态进行状态条件生成。
StateCtrl-AR：自回归变体，仅从第一帧预测状态。

引用信息

标题：WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
作者：Zhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
年份：2026
arXiv：https://arxiv.org/abs/2603.23497
主分类：cs.CV

搜集汇总

数据集介绍

构建方式

在动态世界建模领域，构建能够反映复杂交互与状态演变的数据集至关重要。WildWorld数据集通过自动化采集流程，从AAA级动作角色扮演游戏《怪物猎人：荒野》中系统性地收集数据。该流程整合了定制化的游戏数据采集平台与自动化游戏录制系统，能够同步记录每帧的RGB图像、深度图、相机位姿、角色骨骼及世界状态等多模态信息。借助行为树驱动的AI系统实现自动化战斗与探索，并通过时间戳嵌入技术确保多源数据的精确对齐。数据后处理阶段采用多维过滤策略，剔除低质量样本，最终形成包含超过1.08亿帧的大规模结构化数据集。

特点

WildWorld数据集的核心特点在于其丰富的语义化动作空间与显式的状态标注。数据集涵盖超过450种动作，包括移动、攻击、技能释放等，每种动作均与游戏内部状态紧密关联。每帧数据均配有精细的标注，如角色骨骼关键点、世界状态变量、相机参数及深度信息，为模型学习结构化状态动力学提供了坚实基础。数据集的多样性体现在29种怪物类型、多种武器与场景环境中，且样本时长分布广泛，包含大量长序列交互场景，能够有效支持长时程一致性建模的研究。

使用方法

WildWorld数据集主要应用于动作条件化的世界建模与视频生成研究。研究者可利用其提供的多模态标注，训练能够根据动作输入预测未来帧或状态演变的生成模型。数据集配套的WildBench基准测试提供了动作跟随与状态对齐两项核心评估指标，支持对模型交互能力进行定量分析。典型使用方法包括：以RGB帧与动作为输入，训练视频预测模型；利用骨骼与状态标注进行条件化生成；或基于数据构建世界模型以研究潜在状态动力学。数据集的层次化标注结构也支持从粗粒度到细粒度的多任务学习与评估。

背景与挑战

背景概述

在动态系统理论与强化学习的框架下，世界演化常被视为由动作驱动的潜在状态动态过程，视觉观测则提供了状态的部分信息。近年来，视频世界模型尝试从数据中学习这种动作条件化的动态，然而现有数据集往往难以满足需求：它们通常缺乏多样且语义丰富的动作空间，且动作与视觉观测直接绑定，而非通过底层状态中介。为此，由Alaya Studio、盛大AI研究院东京、北京理工大学、清华大学等机构的研究人员于2026年3月联合提出了WildWorld数据集。该数据集源自AAA级动作角色扮演游戏《怪物猎人：荒野》，包含超过1.08亿帧画面，涵盖450余种动作，并提供了每帧的角色骨骼、世界状态、相机位姿及深度图等同步标注。WildWorld旨在推动生成式动作角色扮演游戏领域的发展，为构建、训练和评估状态感知的交互式世界模型提供了大规模、高保真的基础资源，显著促进了动作条件化世界建模的研究进程。

当前挑战

WildWorld数据集致力于解决动作条件化世界建模领域的核心挑战，即如何学习结构化、长时程一致的世界动态。具体而言，该领域长期面临动作与像素变化纠缠的难题，导致模型难以区分状态转移与观测变化，从而在长时程预测中产生累积误差与不一致性。在数据集构建过程中，研究团队遭遇了多重挑战：首先，从游戏引擎中自动化采集多源同步数据需克服系统层面的时序对齐与稳定性问题；其次，为确保数据质量，必须设计多维过滤机制以剔除低质量样本，如短时长片段、光照异常、相机或角色遮挡等情况；此外，构建涵盖丰富语义动作与复杂状态注释的大规模数据集，需开发定制化工具链与自动化游戏流程，以平衡数据多样性、规模与标注精度。这些挑战共同凸显了在逼真交互环境中获取高质量、状态显式标注数据的复杂性与必要性。

常用场景

经典使用场景

在动态世界建模领域，WildWorld数据集为研究动作条件化视频生成提供了核心实验平台。其最经典的应用场景在于训练和评估能够理解复杂动作语义并维持长时程状态一致性的世界模型。研究者利用该数据集提供的超过450种语义丰富的动作标注，以及每帧同步的骨骼、世界状态和深度信息，构建能够根据离散动作指令预测未来视觉观测的生成模型。这类模型旨在模拟游戏环境中角色执行攻击、移动或施法等动作后引发的状态演变过程，为探索结构化环境动力学提供了前所未有的数据基础。

实际应用

WildWorld数据集的实际应用场景紧密关联于交互式内容生成与智能体训练。在游戏开发领域，该数据集可用于构建能够根据玩家指令实时生成连贯游戏画面的AI驱动引擎，实现动态叙事和自适应关卡生成。在机器人仿真与强化学习方面，其丰富的状态标注和动作空间为训练能够在复杂环境中进行长期规划和决策的智能体提供了高保真模拟环境。此外，数据集衍生的WildBench基准测试工具可直接用于评估各类交互式视频生成系统的动作跟随与状态对齐能力，为产业界优化生成模型的实际性能提供了标准化度量。

衍生相关工作

基于WildWorld数据集，研究社区已衍生出多项聚焦于状态感知视频生成的经典工作。例如，StateCtrl模型通过将离散与连续状态编码为层次化嵌入，并注入视频扩散过程，显式建模了动作引发的状态转移。SkelCtrl则利用数据集提供的骨骼标注，以骨架视频为条件信号，实现了对角色动作的细粒度控制。这些工作共同验证了显式状态表征在提升动作语义理解与长时程一致性方面的关键作用。同时，WildBench基准催生了针对动作跟随与状态对齐的新评估范式，推动了交互式世界模型从感知质量到可控性与动力学准确性的多维评价体系发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集