vla-game-screenshot-telemetry

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/p3nGu1nZz/vla-game-screenshot-telemetry

下载链接

链接失效反馈

官方服务：

资源简介：

CatGame Harness 数据集是一个包含游戏截图、ASCII 渲染和关卡配置的生成数据集。主要特征包括：`image` 列中的嵌入式截图图像、`ascii_text` 列中的内联 ASCII 渲染，以及 `level_conf` 列中每个样本的完整关卡 TOML 文本。新增特征涵盖移动键的原始输入状态（`input_W/A/S/D`）、相对鼠标移动（`input_mouse_dx/dy`）、从遥测数据重建的量化相机位置（`cam_x/y/z`）以及标准化移动强度（`input_move_mag`）。数据集以聚合 Parquet 文件（`dataset.parquet`）和原始 JSONL 分片（`raw/runs/*/records.jsonl`）及原始记录文件（`raw/records/*.json`）的形式提供。

The CatGame Harness dataset is a generative dataset containing game screenshots, ASCII renderings, and level configurations. Its core features include: embedded screenshot images in the `image` column, inline ASCII renderings in the `ascii_text` column, and complete level TOML text for each sample in the `level_conf` column. Additional features cover the raw input states of movement keys (`input_W/A/S/D`), relative mouse movement (`input_mouse_dx/dy`), quantized camera positions reconstructed from telemetry data (`cam_x/y/z`), and normalized movement magnitude (`input_move_mag`). The dataset is provided in the form of an aggregated Parquet file (`dataset.parquet`), raw JSONL shards (`raw/runs/*/records.jsonl`), and raw record files (`raw/records/*.json`).

创建时间：

2026-03-10

原始信息汇总

数据集概述

数据集名称

CatGame Harness Dataset

数据集来源

https://huggingface.co/datasets/p3nGu1nZz/vla-game-screenshot-telemetry

数据集内容描述

该数据集包含嵌入式截图图像、内联ASCII渲染文本以及每个样本的完整关卡配置文本。

数据文件与结构

主聚合文件：dataset.parquet
原始JSONL分片文件：raw/runs/*/records.jsonl
原始记录文件：raw/records/*.json

数据特征（Features）

image：嵌入式截图图像。
ascii_text：内联ASCII渲染文本。
level_conf：每个样本的完整关卡TOML文本。
input_W/input_A/input_S/input_D：移动键的原始输入状态（0/1）。
input_mouse_dx/input_mouse_dy：相对鼠标移动。
cam_x/cam_y/cam_z：从遥测数据重建的量化相机位置。
input_move_mag：归一化的移动强度。

数据分割（Split）

train：训练集，对应文件路径为 dataset.parquet。

搜集汇总

数据集介绍

构建方式

在游戏交互与计算机视觉交叉领域，vla-game-screenshot-telemetry数据集通过系统化的数据采集流程构建而成。该过程整合了游戏画面截图、嵌入式ASCII渲染文本以及完整的关卡配置TOML文件，同时捕获了精细的操作遥测数据，包括原始按键状态、相对鼠标移动量以及重构的量化摄像机位置。这些多模态数据从原始JSONL分片经处理与聚合，最终形成统一的Parquet格式，确保了数据的一致性与高效访问。

使用方法

研究人员可利用该数据集进行多模态学习与游戏AI的探索。数据集以Parquet格式组织，便于通过标准数据处理工具直接加载；同时保留了原始的JSONL分片，以供深入分析或自定义预处理。典型应用包括训练模型从游戏画面理解玩家意图、预测动作序列，或通过关卡配置与遥测数据的结合，研究游戏环境中的状态重建与行为生成任务。

背景与挑战

背景概述

在人工智能与游戏交互研究领域，数据驱动的行为分析与环境理解正成为关键方向。vla-game-screenshot-telemetry数据集由相关研究团队于近期构建，旨在通过整合游戏截图、遥测数据与关卡配置信息，为视觉语言模型在复杂动态环境中的感知与决策提供多模态基准。该数据集的核心研究问题聚焦于如何从高维游戏交互序列中提取结构化表征，以支持智能体在开放世界游戏中的自主导航与任务执行，对强化学习、计算机视觉及人机交互的交叉领域具有显著的推动作用。

当前挑战

该数据集致力于解决游戏环境中视觉与行为数据的对齐问题，其挑战在于游戏画面的动态变化、复杂场景的语义解析以及玩家操作与视觉反馈之间的时序关联建模。构建过程中的挑战涉及多源异构数据的同步采集，包括高频率遥测信号与截图图像的精准对齐，以及原始交互记录的大规模清洗与标注，确保数据的一致性与可用性需克服技术整合与质量控制的双重困难。

常用场景

经典使用场景

在游戏人工智能与计算机视觉交叉领域，vla-game-screenshot-telemetry数据集为视觉语言动作模型提供了关键训练资源。该数据集通过嵌入游戏截图图像与对应的玩家操作遥测数据，经典地应用于训练智能体从视觉输入中理解游戏状态并生成合理动作。研究者利用其对齐的图像、ASCII渲染文本及详细关卡配置，构建端到端的学习框架，使模型能够模拟人类玩家的决策过程，从而在复杂动态环境中实现自主游戏交互。

解决学术问题

该数据集有效解决了游戏AI中视觉感知与动作生成之间的语义鸿沟问题。通过提供同步的屏幕截图与精确的操作遥测，它支持研究如何从高维像素输入中提取可操作表征，并映射到离散或连续的控制指令。这推动了视觉强化学习、模仿学习及多模态理解等领域的发展，为构建无需手工特征工程的通用游戏智能体奠定了数据基础，显著提升了算法在未知游戏环境中的泛化与适应能力。

实际应用

在实际应用层面，vla-game-screenshot-telemetry数据集被广泛用于开发自动化游戏测试工具与智能辅助系统。基于该数据集训练的模型能够模拟真实玩家行为，执行重复性任务以检测游戏漏洞或平衡性问题。同时，它也为游戏内容生成提供了参考，例如通过分析玩家操作模式自动设计关卡或调整难度，从而优化玩家体验并降低人工设计成本，在游戏产业中展现出重要的工程价值。

数据集最近研究