NitroGen

Name: NitroGen
Creator: NVIDIA
Published: 2025-12-19 05:08:36
License: 暂无描述

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/nvidia/NitroGen

下载链接

链接失效反馈

官方服务：

资源简介：

NitroGen数据集包含公开可用的游戏视频的动作注释。具体来说，我们使用内部模型为每个视频帧注释了游戏手柄动作。请注意，从NitroGen论文中复现结果需要额外的过滤，例如空闲帧过滤。该数据集仅包括游戏手柄动作标签，用于研究和开发。数据集的结构包括按20秒分块的视频注释，每个块目录包含原始和处理后的动作数据文件以及元数据文件。数据集旨在训练行为克隆策略（视频到动作）和世界模型（动作到视频）。

提供机构：

NVIDIA

创建时间：

2025-12-19

原始信息汇总

NitroGen数据集概述

数据集描述

NitroGen数据集包含公开游戏视频的动作标注。具体而言，使用内部模型为视频的每一帧标注了游戏手柄动作。请注意，要复现NitroGen论文中的结果需要进行额外的过滤，例如空闲帧过滤。

数据集所有者

NVIDIA Corporation

数据集创建日期

2025-12-19

许可证/使用条款

CC BY-NC 4.0

预期用途

本数据集旨在用于训练行为克隆策略（视频到动作）和世界模型（动作到视频）。

数据集特征

数据收集方法：自动化
标注方法：合成

数据集格式

表格格式，parquet文件。

数据集结构

数据集存储库结构如下：

├── actions │ ├── SHARD_0000 │ │ ├── <video_id> │ │ │ ├── <video_id>_chunk_0000 │ │ │ │ ├── actions_processed.parquet │ │ │ │ ├── actions_raw.parquet │ │ │ │ └── metadata.json │ │ │ ├── <video_id>_chunk_0001 │ │ │ │ ├── actions_processed.parquet │ │ │ │ ├── actions_raw.parquet │ │ │ │ └── metadata.json │ │ │ ├── ... │ ├── SHARD_0001 │ │ ├── ... │ ├── ...

每个视频的标注被分割为20秒的片段。每个片段目录包含以下文件：

actions_raw.parquet：存储每帧游戏手柄动作的表格。
metadata.json：包含与片段相关的所有元数据，如时间戳、长度或URL。
actions_processed.parquet（可选）：与actions_raw.parquet格式相同，但应用了质量过滤和重映射。

元数据内容

metadata.json文件包含以下信息：

uuid：唯一标识符。
chunk_id：片段编号。
chunk_size：片段中的帧数。
original_video：包含分辨率、视频ID、来源、URL、起止时间戳、持续时间、起止帧等信息。
game：游戏名称。
controller_type：控制器类型。
bbox_controller_overlay：屏幕上控制器覆盖区域的边界框（像素空间，相对于分辨率）。
bbox_game_area（可选）：游戏区域的边界框（相对坐标，[0, 1]范围），仅在视频中游戏画面非全屏时存在。
bbox_others（可选）：非游戏元素的边界框列表。

动作数据格式

actions_raw.parquet和actions_processed.parquet是包含游戏手柄动作的表格，每一行对应原始视频中一帧的游戏手柄状态。每行遵循标准游戏手柄布局，包含17个布尔列（按钮）和2个摇杆列（每个摇杆包含一对[-1,1]的值）。

按钮列包括：

"dpad_down", "dpad_left", "dpad_right", "dpad_up", "left_shoulder", "left_thumb", "left_trigger", "right_shoulder", "right_thumb", "right_trigger", "south", "west", "east", "north", "back", "start", "guide"

摇杆列为j_left和j_right，包含x, y坐标，范围在[-1, 1]。注意(-1,-1)表示左上角，这是摇杆轴的标准表示。

数据集量化

已标注视频：30,000个
已标注总帧数：约150亿帧

伦理考虑

NVIDIA认为可信AI是一项共同责任，并已制定政策和实践以支持广泛AI应用的开发。当根据服务条款下载或使用时，开发人员应与其内部模型团队合作，以确保该模型满足相关行业和用例的要求，并解决不可预见的产品误用问题。请通过https://www.nvidia.com/en-us/support/submit-security-vulnerability/ 报告模型质量、风险、安全漏洞或NVIDIA AI相关问题。

重要说明

本数据集仅包含游戏手柄动作标签，仅供研究和开发使用。

搜集汇总

数据集介绍

构建方式

在游戏人工智能研究领域，获取大规模、高质量的动作标注数据是训练智能体行为模型的关键。NitroGen数据集的构建采用了自动化标注方法，通过内部开发的模型对公开的游戏玩法视频进行逐帧分析，为每一帧画面生成对应的游戏手柄动作标签。原始视频被分割为20秒的片段，每个片段包含原始动作数据、经过质量过滤与重映射的处理后数据，以及详细的元数据文件，确保了数据结构的系统性与可追溯性。

特点

该数据集的核心特征在于其规模宏大与标注精细，涵盖了约3万段视频、总计近150亿帧的标注数据。每一帧动作均以标准游戏手柄布局进行编码，包含17个布尔型按钮状态和2个摇杆的二维坐标值，精确反映了游戏过程中的连续控制输入。此外，元数据中提供了视频来源、时间戳、游戏区域边界框及控制器覆盖区域等信息，为多模态学习与场景理解研究提供了丰富的上下文支持。

使用方法

NitroGen数据集主要应用于行为克隆策略与世界模型的训练，旨在建立从视频帧到控制动作、或从动作序列到视频生成的映射关系。研究人员可通过加载Parquet格式的动作表格与JSON元数据，直接获取时序对齐的帧-动作配对样本。使用前需依据研究目标进行必要的数据过滤，例如剔除空闲帧，以确保训练样本的有效性与模型性能。该数据集遵循CC BY-NC 4.0许可，限定于研究与开发用途。

背景与挑战

背景概述

在人工智能与游戏研究的交叉领域，行为克隆与视频生成模型的训练亟需大规模、高质量的标注数据。NitroGen数据集由NVIDIA公司于2025年创建，旨在为公开可用的游戏视频提供精细的动作标注。该数据集通过内部模型对每一视频帧进行游戏手柄动作的自动化标注，核心研究问题聚焦于从视频到动作的行为克隆策略以及从动作到视频的世界模型构建，为强化学习、模仿学习及生成模型在复杂交互环境中的应用奠定了数据基础，推动了智能体在虚拟环境中自主学习与决策能力的发展。

当前挑战

NitroGen数据集致力于解决游戏视频中从视觉观察到控制动作的映射问题，其核心挑战在于动作标注的时序一致性与语义准确性。游戏场景的动态变化、玩家策略的多样性以及视频质量的异质性，使得模型需从高维视觉输入中精准推断出低维控制信号，这对标注的粒度与可靠性提出了极高要求。在构建过程中，数据集面临自动化标注模型的设计与验证难题，包括处理视频中非游戏区域的干扰、控制器叠加界面的掩蔽，以及大规模数据（约150亿帧）的存储、处理与质量控制，同时还需确保标注结果适用于多样化的游戏类型与控制器布局，以支撑下游模型的泛化能力。

常用场景

经典使用场景

在游戏人工智能领域，NitroGen数据集为行为克隆策略的训练提供了关键支持。通过大规模公开游戏视频及其对应的游戏手柄动作标注，该数据集使得研究者能够构建从视频帧到控制指令的映射模型。这种映射对于模拟人类玩家的决策过程至关重要，尤其在需要精确时序动作生成的场景中，数据集的高帧率标注为模型学习复杂的游戏策略奠定了数据基础。

衍生相关工作

围绕NitroGen数据集，已衍生出多项关于游戏视频理解与生成的前沿研究。例如，结合该数据集的动作标签与视频帧，研究者开发了能够预测玩家动作的视觉表征模型。同时，该数据集也被用于训练生成式世界模型，这些模型能够根据输入的动作序列合成连贯的游戏画面，为游戏内容的自动化制作与交互式叙事系统提供了技术原型。

数据集最近研究