NitroGen
收藏NitroGen数据集概述
数据集描述
NitroGen数据集包含公开游戏视频的动作标注。具体而言,使用内部模型为视频的每一帧标注了游戏手柄动作。请注意,要复现NitroGen论文中的结果需要进行额外的过滤,例如空闲帧过滤。
数据集所有者
NVIDIA Corporation
数据集创建日期
2025-12-19
许可证/使用条款
CC BY-NC 4.0
预期用途
本数据集旨在用于训练行为克隆策略(视频到动作)和世界模型(动作到视频)。
数据集特征
- 数据收集方法:自动化
- 标注方法:合成
数据集格式
表格格式,parquet文件。
数据集结构
数据集存储库结构如下:
├── actions │ ├── SHARD_0000 │ │ ├── <video_id> │ │ │ ├── <video_id>_chunk_0000 │ │ │ │ ├── actions_processed.parquet │ │ │ │ ├── actions_raw.parquet │ │ │ │ └── metadata.json │ │ │ ├── <video_id>_chunk_0001 │ │ │ │ ├── actions_processed.parquet │ │ │ │ ├── actions_raw.parquet │ │ │ │ └── metadata.json │ │ │ ├── ... │ ├── SHARD_0001 │ │ ├── ... │ ├── ...
每个视频的标注被分割为20秒的片段。每个片段目录包含以下文件:
actions_raw.parquet:存储每帧游戏手柄动作的表格。metadata.json:包含与片段相关的所有元数据,如时间戳、长度或URL。actions_processed.parquet(可选):与actions_raw.parquet格式相同,但应用了质量过滤和重映射。
元数据内容
metadata.json文件包含以下信息:
uuid:唯一标识符。chunk_id:片段编号。chunk_size:片段中的帧数。original_video:包含分辨率、视频ID、来源、URL、起止时间戳、持续时间、起止帧等信息。game:游戏名称。controller_type:控制器类型。bbox_controller_overlay:屏幕上控制器覆盖区域的边界框(像素空间,相对于分辨率)。bbox_game_area(可选):游戏区域的边界框(相对坐标,[0, 1]范围),仅在视频中游戏画面非全屏时存在。bbox_others(可选):非游戏元素的边界框列表。
动作数据格式
actions_raw.parquet和actions_processed.parquet是包含游戏手柄动作的表格,每一行对应原始视频中一帧的游戏手柄状态。每行遵循标准游戏手柄布局,包含17个布尔列(按钮)和2个摇杆列(每个摇杆包含一对[-1,1]的值)。
按钮列包括:
"dpad_down", "dpad_left", "dpad_right", "dpad_up", "left_shoulder", "left_thumb", "left_trigger", "right_shoulder", "right_thumb", "right_trigger", "south", "west", "east", "north", "back", "start", "guide"
摇杆列为j_left和j_right,包含x, y坐标,范围在[-1, 1]。注意(-1,-1)表示左上角,这是摇杆轴的标准表示。
数据集量化
- 已标注视频:30,000个
- 已标注总帧数:约150亿帧
伦理考虑
NVIDIA认为可信AI是一项共同责任,并已制定政策和实践以支持广泛AI应用的开发。当根据服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型满足相关行业和用例的要求,并解决不可预见的产品误用问题。请通过https://www.nvidia.com/en-us/support/submit-security-vulnerability/ 报告模型质量、风险、安全漏洞或NVIDIA AI相关问题。
重要说明
本数据集仅包含游戏手柄动作标签,仅供研究和开发使用。




