WildWorld
收藏github2026-03-25 更新2026-03-27 收录
下载链接:
https://github.com/ShandaAI/WildWorld
下载链接
链接失效反馈官方服务:
资源简介:
WildWorld是一个大规模的动作条件世界建模数据集,带有显式状态注释,自动从一个逼真的AAA动作角色扮演游戏中收集。它包含:
- 108M+帧,每帧都有注释:角色骨架、动作和状态(HP、动画等)、相机姿势和深度图
- 450+种有语义意义的动作,包括移动、攻击和技能施放
- 多样化的内容:29种怪物、4个玩家角色、4种武器类型、5个不同的阶段
- 长时序列:连续游戏时间长达30分钟以上的片段
- 分层字幕:动作级别和样本级别的自然语言描述
WildWorld is a large-scale action-conditioned world modeling dataset with explicit state annotations, automatically collected from a realistic AAA action role-playing game. It includes:
- Over 108M frames, each annotated with character skeletons, actions and states (HP, animations, etc.), camera poses and depth maps
- Over 450 semantically meaningful actions including movement, attack and skill casting
- Diverse content: 29 types of monsters, 4 player characters, 4 weapon types and 5 distinct stages
- Long-duration sequences: clips with continuous gameplay lasting over 30 minutes
- Hierarchical captions: natural language descriptions at both action level and sample level
创建时间:
2026-03-24
原始信息汇总
WildWorld 数据集概述
数据集基本信息
- 数据集名称:WildWorld
- 核心定位:一个面向生成式动作角色扮演游戏(Generative ARPG)的大规模、动作条件化的世界建模数据集,包含显式状态标注。
- 数据来源:自动采集自一款照片级真实感的AAA级动作角色扮演游戏。
数据集规模与内容
- 数据量:包含超过1.08亿帧图像。
- 标注信息:提供逐帧标注,具体包括:
- 角色骨架
- 动作与状态(如生命值HP、动画状态等)
- 相机位姿
- 深度图
- 动作多样性:包含450多个具有语义意义的动作,涵盖移动、攻击、技能施放等类型。
- 内容多样性:
- 29种怪物种类
- 4种玩家角色
- 4种武器类型
- 5个不同的游戏场景(阶段)
- 序列长度:包含长时程序列,片段最长可覆盖超过30分钟的连续游戏过程。
- 文本描述:提供分层级的自然语言描述,包括动作级别和样本级别的描述。
相关资源
- 项目主页:https://shandaai.github.io/wildworld-project/
- 论文:https://arxiv.org/abs/2603.23497
- 演示视频:https://www.youtube.com/watch?v=9vcSg553r2g
- 框架图:https://github.com/ShandaAI/WildWorld/raw/main/assets/framework-arxiv.png
发布状态
- 论文已于2026年3月25日发布。
- 数据集(WildWorld dataset)与基准测试(WildBench benchmark)尚未发布(状态为待办事项)。
许可与引用
- 许可证:参见项目中的LICENSE文件。
- 引用格式:如使用本项目,请引用提供的BibTex条目。
搜集汇总
数据集介绍

构建方式
在动态世界建模领域,WildWorld数据集通过自动化采集流程构建而成,其数据源自一款具有高度写实风格的三维动作角色扮演游戏。该数据集以游戏引擎实时渲染的画面为基础,系统性地捕获了超过1.08亿帧图像,并为每一帧同步注入了丰富的结构化信息,包括角色骨骼、动作标签、生命值等状态参数、相机位姿以及深度图。这一构建过程充分利用了游戏内部的可编程接口与日志系统,确保了大规模、长时间序列数据的连贯性与标注精度,为生成式动作角色扮演游戏的研究提供了坚实的数据基础。
特点
WildWorld数据集展现出多维度、高复杂度的特征体系。其核心在于融合了显式的状态标注与多样化的动作语义,涵盖了超过450种具有明确意义的动作类别,如移动、攻击与技能释放。数据内容极具多样性,包含29种怪物物种、4类玩家角色、4种武器类型以及5个风格迥异的游戏场景,且序列长度可延伸至30分钟以上的连续游戏过程。此外,数据集还提供了层次化的自然语言描述,既包含动作粒度的简要说明,也具备样本级别的整体叙述,极大地增强了数据的可解释性与适用性。
使用方法
该数据集主要服务于生成式动作角色扮演游戏与动态世界建模的前沿研究。使用者可通过其提供的标准化数据加载接口,访问海量的帧序列及其对应的多模态标注。研究人员能够利用这些数据训练和评估世界模型、行为克隆、动作预测以及可控内容生成等算法。具体而言,数据集的结构化状态信息可用于驱动基于条件的生成任务,而长时序数据则为学习复杂的环境动态与角色行为模式提供了可能。同时,附带的基准测试代码为不同方法的性能比较提供了统一的评估框架。
背景与挑战
背景概述
在生成式人工智能与具身智能交互研究蓬勃发展的背景下,动态世界建模旨在构建能够理解和预测复杂环境中实体状态与行为演变的计算模型。WildWorld数据集于2026年由Alaya Studio、盛趣人工智能研究院东京团队、北京理工大学及上海创新研究院联合发布,其核心研究问题聚焦于为生成式动作角色扮演游戏(Generative ARPG)提供大规模、高保真的动作条件世界建模数据。该数据集通过从一款写实风格的3A级ARPG中自动采集,提供了超过1.08亿帧带有逐帧标注的序列,涵盖了角色骨骼、动作、生命值等显式状态信息,以及相机姿态与深度图,极大地推动了基于动作的生成模型、长期序列预测及游戏人工智能等领域的研究进程。
当前挑战
WildWorld数据集致力于解决动态世界建模中动作与显式状态联合建模的核心挑战,其首要难题在于如何精确捕捉并标注高维、长时程的连续交互序列,以支持模型理解复杂动作对游戏世界状态的因果性影响。在构建过程中,研究团队面临多重技术障碍:一是从复杂的游戏引擎中自动化、大规模地提取多模态数据并确保标注的同步性与一致性;二是定义并结构化超过450种具有语义意义的动作类别,以及整合角色生命值、动画状态等多样化的显式状态变量,以构建统一且可计算的状态表示。此外,处理长达30分钟以上的连续游戏片段,并生成层次化的动作级与样本级自然语言描述,也对数据管线的设计与计算资源提出了严峻考验。
常用场景
经典使用场景
在计算机视觉与强化学习交叉领域,WildWorld数据集为动态世界建模提供了经典范例。其核心应用场景在于训练和评估生成式动作角色扮演游戏(ARPG)中的世界模型,通过大规模、高保真的游戏帧序列与丰富的动作-状态标注,支持模型学习复杂环境下的物理交互与长期决策过程。研究者可利用该数据集构建能够预测未来帧、生成连贯游戏状态或模拟玩家行为的智能系统,为游戏内容自动生成与智能体行为规划奠定数据基础。
实际应用
在实际应用层面,WildWorld数据集为游戏开发与人工智能产业带来了直接价值。游戏工作室可利用其训练的内容生成模型,自动创建丰富的游戏场景、怪物行为或玩家动画,显著降低人工设计成本。同时,该数据集支持开发更智能的非玩家角色(NPC)与游戏测试智能体,通过模拟真实玩家操作来优化游戏平衡性与用户体验。此外,在虚拟现实与仿真训练领域,WildWorld的高保真环境数据也可用于构建沉浸式训练平台,为机器人导航或决策系统提供安全、可控的测试环境。
衍生相关工作
围绕WildWorld数据集,已衍生出多项经典研究工作,主要集中在生成式世界建模与动作条件预测方向。例如,基于其长时序标注数据,研究者开发了能够合成连贯游戏帧序列的变分自编码器模型,实现了动作驱动下的场景生成。同时,结合显式状态信息,有工作提出了分层强化学习框架,用于学习复杂游戏任务中的策略规划。这些衍生成果不仅推动了游戏AI领域的发展,也为视频预测、机器人仿真等更广泛的时序生成任务提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



