Incantation dataset

Name: Incantation dataset
Creator: 上海交通大学; 英伟达研究院; 中国科学技术大学; 中国科学院大学; 新加坡国立大学; 滑铁卢大学; 香港科技大学; 香港大学; 中国电子科技集团公司
Published: 2026-05-19 00:12:52
License: 暂无描述

arXiv2026-05-19 更新2026-05-20 收录

下载链接：

https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes

下载链接

链接失效反馈

官方服务：

资源简介：

Incantation数据集是由上海交通大学、英伟达研究院等多家机构联合构建的大规模游戏视频数据集，专为多实体交互视频世界模型设计。该数据集涵盖《艾尔登法环》和《拳皇》两个异构游戏世界，总时长128小时，以0.25秒为粒度提供精确的每帧每实体动作标签，数据直接从游戏内存提取确保零时间偏移。数据集通过结构化动作导向元数据标注，支持细粒度多实体控制与跨实体语义迁移研究。其核心应用于训练自然语言驱动的交互视频生成模型，旨在解决传统动作接口在跨实体泛化与开放词汇语义表达方面的局限性，推动游戏AI与可控视频生成领域的发展。

提供机构：

上海交通大学; 英伟达研究院; 中国科学技术大学; 中国科学院大学; 新加坡国立大学; 滑铁卢大学; 香港科技大学; 香港大学; 中国电子科技集团公司

创建时间：

2026-05-19

原始信息汇总

数据集概述

该数据集是 Incantation 项目的一个早期公开预览子集，专注于《艾尔登法环》游戏中的战斗场景，包含玩家与 Boss 之间交互的手动收集视频片段及结构化元数据。

数据集基本信息

名称: Incantation Elden Ring Combat Captions
许可证: 其他（非标准）
语言: 英语
任务类型: 视频分类、视频文本到文本、文本生成
标签: 视频字幕、动作识别、游戏视频、艾尔登法环、咒术
预览子集: 仅供格式参考、原型验证和社区引用，并非最终完整数据集。

数据规模与配置

数据集当前包含两个配置（Config），每个配置对应一个 Boss 场景：

配置名称	元数据行数（JSONL）	视频文件数（MP4）
`margit`	729 行	729 个
`crucible_knight`	340 行	340 个

总计: 1069 个视频片段。

数据结构

数据集采用场景中心（scene-centric）的目录布局：

margit/ meta_data.jsonl videos/ *.mp4 crucible_knight/ meta_data.jsonl videos/ *.mp4

每个视频片段对应一条 JSONL 记录，主要字段包括：

video: 视频文件名，实际 MP4 文件位于对应场景的 videos/ 目录下。
verified: 标注是否经过人工验证。
prompt.scene_clarity: 场景质量标签（如 "Clear"）。
prompt.global_caption: 片段级摘要，包括简短描述、长描述、可见对象、开始和结束时间。
prompt.participants: 每个实体（玩家、Boss）的时间线，按时间顺序列出动作片段，包含开始/结束时间、动作描述、是否交互及交互对象。
statistics: 统计信息，如最大事件数、是否包含 Boss 交互。
context_used: 是否使用了上下文信息进行标注。

数据收集方式

所有视频片段均通过人工驱动的工作流程进行收集、筛选、组织和审核，而非无差别地网络爬取。收集过程强调具有可见玩家-Boss 交互且具有可用动作结构的战斗片段。

预期用途

该数据集可用于以下研究领域：

训练基于动作或语言描述的条件化交互视频生成模型
训练单一共享视角下的多实体世界模型
从视频-动作轨迹中训练或评估游戏智能体
研究时间动作定位、战斗事件解析和视频字幕生成
为游戏世界或具身智能体构建基于语言的控制接口原型

数据加载

可以使用 Hugging Face datasets 库加载不同配置：

python from datasets import load_dataset

margit = load_dataset("zhush/incantation-elden-ring-scenes", "margit") crucible_knight = load_dataset("zhush/incantation-elden-ring-scenes", "crucible_knight")

加载后需将 video 字段中的文件名与对应场景目录（如 margit/videos/）拼接以访问实际视频文件。

与 Incantation 论文的关系

该预览子集与 Incantation 研究项目相关，但并非最终论文所使用的完整数据集。完整发布版预计将包含更多《艾尔登法环》Boss、《拳皇》数据、代码和模型检查点。

局限性

仅为预览子集，不代表最终项目的动作分布、Boss 覆盖、世界或数据规模
元数据以研究为目的设计，可能包含不完美的字幕或未验证的行
视频片段分布受人工收集和筛选影响，并非平衡的基准测试
包含商业游戏实况，下游使用者应遵守相关研究、法律和平台限制

法律声明

《艾尔登法环》是 FromSoftware, Inc. 和 Bandai Namco Entertainment Inc. 的商标。该数据集是学术研究产物，与游戏开发商或发行商无关，未经其认可或赞助。

搜集汇总

数据集介绍

构建方式

Incantation数据集通过直接读取游戏引擎内存，零时间偏移地获取每一帧的逐实体动作标签，构建了涵盖《艾尔登法环》与《拳皇》两大异质世界的128小时游戏数据。在《艾尔登法环》中，收集了30小时玛尔基特与15小时熔炉骑士的头目战片段，并针对每个实体提取了包含玩家动作与头目动作的三元组标签，玩家与头目动作词汇表分别包含13与47个动作。对于《拳皇》，则采集了约5000段60秒的双人对战片段，总计约83小时。所有数据均以0.25秒的精细时间粒度标注，确保了动作标签与视频帧的精确对齐。

特点

该数据集的核心特点在于其精细的多实体控制能力与跨实体泛化能力。通过将自然语言作为动作接口，数据集为每个实体分配独立的语法隔离文本片段，实现了同一共享视角下多个实体的同时独立控制。这种设计使得动作语义天然地在实体间共享，任何动作均可通过文本短语从其原生实体迁移至其他实体，实现了概念层面的跨实体动作迁移。此外，自然语言接口天然具有开放词汇特性，能够表达任意组合或改写后的动作指令，突破了传统离散索引接口的固有限制。

使用方法

数据集的使用方法围绕基于帧级自然语言条件化的交互式视频世界模型展开。训练时，每帧的多实体动作被组织为结构化自然语言提示模板，例如'玩家执行[动作_P]，头目执行[动作_B]'，通过解耦的文本交叉注意力机制与双向历史自注意力结合，实现精确的逐帧控制。推理阶段，模型采用两步蒸馏与旋转位置编码解耦的滑动键值缓存技术，支持实时流式生成。用户可通过修改提示模板中的动作短语，灵活驱动不同实体执行期望动作，并可在不改变架构的前提下，通过替换动作词汇表将模型推广至其他视觉世界。

背景与挑战

背景概述

Incantation数据集由上海交通大学、NVIDIA Research、中国科学技术大学等多所顶尖高校与机构的研究人员于2025年构建。其核心研究问题在于突破现有交互式视频世界模型中动作接口的固有局限——传统控制协议（如动画ID、设备输入、场景级描述）将动作语义与特定实体或渲染引擎紧密绑定，导致多实体控制、跨实体泛化及跨世界迁移能力严重不足。该数据集涵盖《艾尔登法环》与《拳皇》两大风格迥异的游戏世界，包含128小时的高质量游戏录像，并创新性地以自然语言作为每帧、每实体的动作接口，实现了精细的多实体并行控制。Incantation的提出不仅革新了交互式世界模型的动作表征范式，更为后续跨实体语义迁移与开放词汇控制研究树立了重要标杆。

当前挑战

Incantation面临的核心挑战首先在于解决多实体视频世界模型中的结构性难题：如何在一个共享视点下实现独立、同时的细粒度多实体控制，并支持跨实体的概念级动作迁移，这是传统离散索引或设备输入接口所无法企及的。此外，构建过程中亦遭遇双重技术瓶颈：一是需要设计逐帧语言条件化机制，在不破坏预训练骨干模型双向注意力先验的前提下，防止动作提示对历史帧产生时序交叉污染；二是要实现实时长时流式推理，这要求将推理步数压缩至2步、维持有限显存占用，并通过RoPE解耦的滑动KV缓存确保位置编码在长时段生成中始终保持分布内状态。

常用场景

经典使用场景

在交互式视频世界建模领域，多实体控制与跨实体动作迁移一直是悬而未决的挑战。Incantation数据集为研究者提供了一个兼具细粒度时序标注与结构化语义信息的多实体游戏交互数据集，其核心使用场景在于支撑自然语言作为动作接口的视频世界模型训练。该数据集包含了Elden Ring与King of Fighters两大异构游戏世界的战斗片段，每一帧均精确记录了每一实体的动作标签，时间精度达到0.25秒。研究者可以借助该数据集，训练能够同时独立控制多个实体（如玩家与Boss）的交互式视频生成模型，并实现不同实体间动作的跨实体语义迁移，这是传统离散动作索引接口所无法企及的。

衍生相关工作

Incantation数据集的发布催生了一系列富有启发性的后续工作。其一，基于其自然语言动作接口的思想，研究者开始探索将神经符号系统（Neuro-Symbolic）与交互式世界模型结合，通过外部队列与跟踪器实现超越生成器短视窗口的长时间实体状态管理，例如利用视觉语言模型（VLM）从生成视频中提取结构化事件并驱动状态转移。其二，该数据集启发了对更高效流式推理架构的研究，即通过ODE初始化的自强迫蒸馏与RoPE解耦的滑动KV缓存，将每帧生成步骤压缩至两步，同时保持数小时的视觉质量稳定。此外，其跨世界泛化验证范式——仅通过词汇替换即可适应新的视觉领域——为构建真正通用的交互式世界基础模型提供了实验模板，推动了后续研究者从单一游戏场景迈向多样化交互环境的关键一步。

数据集最近研究