p2p-full-data

Hugging Face2026-01-08 更新2026-01-09 收录

下载链接：

https://huggingface.co/datasets/elefantai/p2p-full-data

下载链接

链接失效反馈

官方服务：

资源简介：

p2p-full-data数据集包含8300多小时的高质量人类注释数据，涵盖40多个流行的3D视频游戏。游戏玩法由经验丰富的玩家以20 FPS录制，每帧都标注有键盘和鼠标动作，并在可用时提供文本指令。数据集可用于世界模型、视觉语言动作（VLA）、动作策略训练等研究领域。数据集的创建目的是训练一个能够在合理水平上与真人实时玩视频游戏的动作策略。数据由合格的玩家收集，注释使用Recap工具完成。

创建时间：

2026-01-07

原始信息汇总

数据集概述

基本信息

数据集名称: p2p-full-data
共享方: Player2 (Elefant AI)
许可协议: MIT
主要语言: 英语 (en)
数据规模: 100K < n < 1M
标签: action-policy, world-model, vision-language-action, gaming-agent

数据内容与规模

数据总量: 包含超过 8300小时 的高质量人工标注数据。
覆盖范围: 涵盖超过 40款 流行的3D视频游戏。
录制规格: 所有游戏过程由经验丰富的玩家录制，帧率为 20 FPS。
标注内容: 每一帧都标注了键盘和鼠标动作，并在可用时提供文本指令。

数据结构与文件

数据集仓库结构如下：

元数据文件 (`data_metadata.parquet`)

该文件是一个数据框，包含以下列，可用于按游戏环境名称筛选视频：

filepath: 游戏录像的文件路径（唯一UUID）。
env_name: 游戏环境名称（如 Roblox, DOOM, Quake 等）。
env_subtype: 游戏子类型（对于 Roblox 中的游戏，为具体游戏名称，如 rivals, hypershot）。
is_known_count_user: 具有用户动作的帧数。
is_known_count_user: 具有系统动作的帧数。
num_frames: 总帧数。

数据批次文件 (`batch_<id>.tar.gz`)

每个压缩包包含 200个 录像视频。
每个视频（以UUID命名的文件夹）包含以下文件：
- video.mp4: 原始视频。
- 192x192.mp4: 用于模型训练的调整大小后的视频（192x192像素）。
- annotation.proto: 包含每帧用户动作和文本标注的协议缓冲区文件。

标注文件 (`annotation.proto`) 结构

标注文件包含以下信息：

metadata: 元数据，如录制时间戳、游戏环境名称等。
frame_annotations: 每帧的标注列表，包含：
- user_action: 用户执行的动作（如果存在）。
  - keyboard: 当前按下的键列表（例如 [w, space]）。
  - mouse: 鼠标动作。
    - mouse_absolute_px: X轴上的鼠标移动/位置（像素）。
    - mouse_absolute_py: Y轴上的鼠标移动/位置（像素）。
    - scroll_delta_px: 鼠标中键滚轮移动的像素。
    - buttons_down: 按下的鼠标按钮列表（例如 [0] 代表左键，[1] 代表右键）。
- system_action: 来自推理服务器的动作（仅校正数据），结构与 user_action 相同。
- frame_text_annotation: 文本标注（如果可用）。
  - instruction: 自然语言文本指令。
  - frame_text_annotator: 用于标注的视觉语言模型（VLM）。
  - duration: 指令持续时间（秒）。
  - text_embedding_dict: 文本嵌入向量字典，包含分词器名称。

预期用途

该数据集由游戏过程录像、录制过程中采取的键盘和鼠标动作以及可用的文本指令组成。可作为以下研究领域的良好资源：

世界模型
视觉-语言-动作
动作策略训练
其他潜在领域

数据创建

创建动机: 旨在训练一个能够与真人实时、在合理水平上玩视频游戏的动作策略。
数据来源: 从合格的人类游戏玩家处收集。
数据生产者: Player2 (Elefant AI)。
标注过程: 使用 Recap 工具进行标注。

引用

如需在研究中引用此数据集，请使用以下BibTeX条目： bibtex @misc{yue2026scaling, title={Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing}, author={Yuguang Yue and Irakli Salia and Samuel Hunt and Chris Green and Wenzhe Shi and Jonathan J. Hunt}, year={2026}, eprint={2601.04575}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2601.04575} }

搜集汇总

数据集介绍

构建方式

在视频游戏智能体研究领域，数据集的构建质量直接关系到模型的泛化能力。p2p-full-data数据集通过招募经验丰富的玩家，在超过40款热门3D游戏中录制了超过8300小时的高质量游戏过程，帧率稳定在20 FPS。每一帧画面均通过Recap工具同步标注了键盘与鼠标操作，并在可用时辅以文本指令，形成了视觉-语言-动作三元对齐的结构化数据。原始视频与标注信息以批次压缩包形式组织，每个批次包含200段独立录像，确保了数据管理的系统性与可扩展性。

使用方法

研究人员可通过元数据文件data_metadata.parquet按游戏环境筛选所需录像，解压对应的批次压缩包后即可访问视频文件与标注原型。数据集适用于行为克隆、动作策略优化等任务，用户可依据frame_annotations中的键盘、鼠标动作序列及文本指令进行模型训练。为便于初步探索，HuggingFace平台提供了小规模示例数据集p2p-toy-examples，完整数据的使用细节可参考GitHub仓库中的指南，训练所得模型的实机演示亦可通过项目网页观看。

背景与挑战

背景概述

在人工智能与游戏智能体交叉研究领域，构建能够实时理解并执行复杂任务的通用游戏智能体一直是核心挑战。p2p-full-data数据集由Elefant AI团队于2026年创建，旨在通过大规模、高质量的人类演示数据，推动行为克隆、世界模型及视觉-语言-动作（VLA）等方向的研究。该数据集汇集了超过8300小时、涵盖40余款热门3D游戏的人类专家游戏录像，每一帧均标注了键盘与鼠标操作，并在可用时提供文本指令，为训练能够在真实游戏环境中达到人类合理水平的实时决策模型提供了关键资源。其核心研究问题聚焦于如何利用大规模行为数据提升智能体的因果推理与泛化能力，对强化学习、具身智能及多模态交互等领域具有显著的推动作用。

当前挑战

该数据集致力于解决通用游戏智能体在复杂、开放世界环境中的实时决策与控制的根本性挑战，其核心在于如何让模型从高维视觉输入中精准理解动态游戏状态，并生成鲁棒且连续的低级控制动作（如键盘与鼠标操作）。构建过程中的挑战主要体现在数据采集与标注的复杂性上：首先，确保超过8300小时游戏录像的质量与一致性需要协调大量经验丰富的玩家，并在多样化的游戏环境中维持统一的录制标准（如20 FPS）；其次，对每一帧进行精确的动作标注（包括按键状态、鼠标移动与点击）以及关联的文本指令生成，涉及复杂的标注流程与工具链（如Recap系统），这对数据的一致性与可扩展性提出了极高要求。

常用场景

经典使用场景

在强化学习与具身智能领域，p2p-full-data数据集为构建通用游戏智能体提供了关键支撑。该数据集汇集了超过8300小时的高质量人类游戏录像，覆盖40余款热门3D游戏，每帧均标注了键盘与鼠标操作及文本指令。研究者可借此训练视觉-语言-动作模型，模拟人类玩家在复杂动态环境中的决策过程，从而推动行为克隆、世界模型等前沿方向的发展。

解决学术问题

该数据集有效应对了多模态智能体训练中数据稀缺与质量不均的挑战。通过提供大规模、跨游戏、细粒度标注的示范数据，它助力解决动作策略泛化、跨域适应以及实时决策建模等核心学术问题。其丰富的时序动作与语言指令对，为探究因果推理、状态表征学习提供了实证基础，显著提升了智能体在开放环境中的鲁棒性与可解释性。

实际应用

在实际应用层面，基于p2p-full-data训练的模型能够部署为实时游戏辅助系统或自动化测试工具。这类系统可模拟人类操作，用于游戏内容生成、平衡性测试或玩家行为分析。此外，其技术框架可迁移至机器人控制、虚拟培训等需要精细操作与自然语言交互的场景，为产业界实现高效、自适应的人机协作提供了可行路径。

数据集最近研究