five

vla-game-screenshot-telemetry

收藏
Hugging Face2026-03-12 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/p3nGu1nZz/vla-game-screenshot-telemetry
下载链接
链接失效反馈
官方服务:
资源简介:
CatGame Harness 数据集是一个包含游戏截图、ASCII 渲染和关卡配置的生成数据集。主要特征包括:`image` 列中的嵌入式截图图像、`ascii_text` 列中的内联 ASCII 渲染,以及 `level_conf` 列中每个样本的完整关卡 TOML 文本。新增特征涵盖移动键的原始输入状态(`input_W/A/S/D`)、相对鼠标移动(`input_mouse_dx/dy`)、从遥测数据重建的量化相机位置(`cam_x/y/z`)以及标准化移动强度(`input_move_mag`)。数据集以聚合 Parquet 文件(`dataset.parquet`)和原始 JSONL 分片(`raw/runs/*/records.jsonl`)及原始记录文件(`raw/records/*.json`)的形式提供。
创建时间:
2026-03-10
原始信息汇总

数据集概述

数据集名称

CatGame Harness Dataset

数据集来源

https://huggingface.co/datasets/p3nGu1nZz/vla-game-screenshot-telemetry

数据集内容描述

该数据集包含嵌入式截图图像、内联ASCII渲染文本以及每个样本的完整关卡配置文本。

数据文件与结构

  • 主聚合文件dataset.parquet
  • 原始JSONL分片文件raw/runs/*/records.jsonl
  • 原始记录文件raw/records/*.json

数据特征(Features)

  • image:嵌入式截图图像。
  • ascii_text:内联ASCII渲染文本。
  • level_conf:每个样本的完整关卡TOML文本。
  • input_W/input_A/input_S/input_D:移动键的原始输入状态(0/1)。
  • input_mouse_dx/input_mouse_dy:相对鼠标移动。
  • cam_x/cam_y/cam_z:从遥测数据重建的量化相机位置。
  • input_move_mag:归一化的移动强度。

数据分割(Split)

  • train:训练集,对应文件路径为 dataset.parquet
搜集汇总
数据集介绍
构建方式
在游戏交互与计算机视觉交叉领域,vla-game-screenshot-telemetry数据集通过系统化的数据采集流程构建而成。该过程整合了游戏画面截图、嵌入式ASCII渲染文本以及完整的关卡配置TOML文件,同时捕获了精细的操作遥测数据,包括原始按键状态、相对鼠标移动量以及重构的量化摄像机位置。这些多模态数据从原始JSONL分片经处理与聚合,最终形成统一的Parquet格式,确保了数据的一致性与高效访问。
使用方法
研究人员可利用该数据集进行多模态学习与游戏AI的探索。数据集以Parquet格式组织,便于通过标准数据处理工具直接加载;同时保留了原始的JSONL分片,以供深入分析或自定义预处理。典型应用包括训练模型从游戏画面理解玩家意图、预测动作序列,或通过关卡配置与遥测数据的结合,研究游戏环境中的状态重建与行为生成任务。
背景与挑战
背景概述
在人工智能与游戏交互研究领域,数据驱动的行为分析与环境理解正成为关键方向。vla-game-screenshot-telemetry数据集由相关研究团队于近期构建,旨在通过整合游戏截图、遥测数据与关卡配置信息,为视觉语言模型在复杂动态环境中的感知与决策提供多模态基准。该数据集的核心研究问题聚焦于如何从高维游戏交互序列中提取结构化表征,以支持智能体在开放世界游戏中的自主导航与任务执行,对强化学习、计算机视觉及人机交互的交叉领域具有显著的推动作用。
当前挑战
该数据集致力于解决游戏环境中视觉与行为数据的对齐问题,其挑战在于游戏画面的动态变化、复杂场景的语义解析以及玩家操作与视觉反馈之间的时序关联建模。构建过程中的挑战涉及多源异构数据的同步采集,包括高频率遥测信号与截图图像的精准对齐,以及原始交互记录的大规模清洗与标注,确保数据的一致性与可用性需克服技术整合与质量控制的双重困难。
常用场景
经典使用场景
在游戏人工智能与计算机视觉交叉领域,vla-game-screenshot-telemetry数据集为视觉语言动作模型提供了关键训练资源。该数据集通过嵌入游戏截图图像与对应的玩家操作遥测数据,经典地应用于训练智能体从视觉输入中理解游戏状态并生成合理动作。研究者利用其对齐的图像、ASCII渲染文本及详细关卡配置,构建端到端的学习框架,使模型能够模拟人类玩家的决策过程,从而在复杂动态环境中实现自主游戏交互。
解决学术问题
该数据集有效解决了游戏AI中视觉感知与动作生成之间的语义鸿沟问题。通过提供同步的屏幕截图与精确的操作遥测,它支持研究如何从高维像素输入中提取可操作表征,并映射到离散或连续的控制指令。这推动了视觉强化学习、模仿学习及多模态理解等领域的发展,为构建无需手工特征工程的通用游戏智能体奠定了数据基础,显著提升了算法在未知游戏环境中的泛化与适应能力。
实际应用
在实际应用层面,vla-game-screenshot-telemetry数据集被广泛用于开发自动化游戏测试工具与智能辅助系统。基于该数据集训练的模型能够模拟真实玩家行为,执行重复性任务以检测游戏漏洞或平衡性问题。同时,它也为游戏内容生成提供了参考,例如通过分析玩家操作模式自动设计关卡或调整难度,从而优化玩家体验并降低人工设计成本,在游戏产业中展现出重要的工程价值。
数据集最近研究
最新研究方向
在游戏人工智能与计算机视觉交叉领域,vla-game-screenshot-telemetry数据集凭借其融合视觉、文本与遥测数据的独特结构,正推动着多模态智能体学习的前沿探索。研究者们聚焦于利用该数据集中的屏幕截图、ASCII渲染及玩家操作遥测,训练能够理解复杂游戏环境并执行精细操作的视觉语言动作模型。这些模型不仅需解析动态视觉场景,还需关联低层级操作指令如键盘按键与鼠标移动,以实现从感知到决策的端到端学习。当前热点集中于开发能够适应开放世界游戏的通用智能体,该数据集为此提供了宝贵的细粒度人类演示数据,显著促进了游戏AI在样本效率与泛化能力方面的突破,对自动驾驶、机器人控制等具身智能领域亦具有重要借鉴意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作