gymrec__BreakoutNoFrameskip_dash_v4

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/tsilva/gymrec__BreakoutNoFrameskip_dash_v4

下载链接

链接失效反馈

官方服务：

资源简介：

BreakoutNoFrameskip-v4 Gameplay Dataset 是一个来自 Gymnasium 环境 'BreakoutNoFrameskip-v4' 的游戏录制数据集，使用 gymrec 工具收集。数据集包含 494,029 帧和 50 个游戏片段，环境配置包括帧跳过设置为 1，目标 FPS 为 30，观测形状为 210 × 160 × 3 的 RGB 帧，动作空间为离散的 4 个动作。数据集结构采用 Minari 兼容的扁平表格格式，每个片段包含 N 个步骤行和一个终止观察行。字段包括 episode_id、seed、observations、actions、rewards、terminations、truncations、infos、session_id、collector 和 gymrec_version。适用于强化学习任务，特别是与 Atari 游戏 Breakout 相关的研究。

创建时间：

2026-03-09

原始信息汇总

BreakoutNoFrameskip-v4 Gameplay Dataset 数据集概述

数据集基本信息

数据集名称: BreakoutNoFrameskip-v4 Gameplay Dataset
语言: 英语 (en)
许可证: MIT
数据规模: 100K<n<1M
任务类别: 强化学习 (reinforcement-learning)
标签: gymnasium, atari, BreakoutNoFrameskip-v4

数据集摘要

统计项	值
总帧数	494,029
回合数	50
环境	`BreakoutNoFrameskip-v4`
后端	Atari (ALE-py)
收集器	breakout
gymrec 版本	0.1.0+23e91c8, 0.1.0+72aad18

环境配置

设置项	值
帧跳过	1
目标帧率	30
粘性动作概率	0.0
观测形状	210 × 160 × 3
观测数据类型	uint8
动作空间	离散 (Discrete)
动作数量	4

数据集结构

格式: Minari 兼容的扁平表格式。可使用 minari-export 转换为原生 Minari HDF5 格式。
模式: 每个回合包含 N 个步骤行加上一个终止观测行 (N+1 模式)。终止观测是最后一个步骤后的最终状态，其动作为空，奖励/终止/截断/信息字段为 null。

数据列说明:

episode_id (binary(16)): 每个回合的唯一 UUID 标识符。
seed (int 或 null): 用于 env.reset() 的 RNG 种子（在每个回合的第一行设置，其他行为 null）。
observations (Image): 来自环境的 RGB 帧。
actions (list): 此步骤采取的动作（终止观测行为 []）。
rewards (float 或 null): 获得的奖励（终止观测行为 null）。
terminations (bool 或 null): 回合是否自然终止（终止观测行为 null）。
truncations (bool 或 null): 回合是否被截断（终止观测行为 null）。
infos (str 或 null): 以 JSON 格式表示的额外环境信息（终止观测行为 null）。
session_id (binary(16)): 将来自一次 gymrec record 运行的所有回合分组的 UUID。
collector (string): 数据收集者（"human", "random", 或未来的智能体名称）。
gymrec_version (string): 用于记录的 gymrec 版本（例如 "0.1.0+abc1234"）。

使用方法

python from datasets import load_dataset ds = load_dataset("tsilva/gymrec__BreakoutNoFrameskip_dash_v4")

来源与制作

数据来源: 使用 gymrec 从 Gymnasium 环境 BreakoutNoFrameskip-v4 收集的游戏录像。
收集者: breakout
整理者: tsilva

搜集汇总

数据集介绍

构建方式

在强化学习研究领域，高质量的游戏交互数据对于算法训练与评估至关重要。本数据集依托Gymnasium环境中的BreakoutNoFrameskip-v4版本，通过gymrec工具系统性地采集了游戏交互记录。数据收集过程严格遵循环境配置，采用每秒30帧的目标帧率，观测空间为210×160×3的RGB图像，动作空间为离散的4个选项。总计包含50个完整回合，涵盖494,029帧画面，每回合以N步加一终止观测行的结构组织，确保了时序轨迹的完整性。

使用方法

研究人员可通过Hugging Face数据集库便捷加载本资源，使用标准接口即可访问结构化游戏轨迹。数据可直接用于离线强化学习算法训练，或作为基线策略的行为克隆参考。借助Minari导出功能，用户能将其转换为专业强化学习库兼容格式，进而开展策略评估、模型预训练等实验。该数据集亦适用于研究帧跳过处理对算法性能的影响，为Atari游戏领域的算法比较提供实证基础。

背景与挑战

背景概述

在强化学习领域，游戏环境常被用作评估智能体性能的基准。BreakoutNoFrameskip-v4数据集由研究人员tsilva于2023年通过gymrec工具构建，该数据集源自Gymnasium平台中的Atari游戏环境，专注于记录《Breakout》游戏的无帧跳过版本。其核心研究问题在于为离线强化学习算法提供高质量、结构化的交互轨迹数据，以支持策略评估与模型训练。该数据集的发布丰富了强化学习社区的开放资源，推动了基于真实游戏交互的算法比较与基准测试，对智能决策系统的研究具有显著影响力。

当前挑战

该数据集旨在解决Atari游戏环境中智能体决策与控制的挑战，特别是面对高维视觉输入与稀疏奖励信号时，如何有效学习长期策略。在构建过程中，挑战包括确保数据的一致性与完整性，例如处理终端观察行的特殊结构，以及维护多版本gymrec工具采集的数据兼容性。此外，数据集需平衡人类与随机策略收集的样本，以覆盖多样化的行为模式，同时保持观测帧的时序对齐与元数据准确记录，这对后续算法的泛化能力提出了严格要求。

常用场景

经典使用场景

在强化学习领域，Atari游戏环境常被用作基准测试平台，以评估智能体在复杂视觉输入下的决策能力。该数据集记录了BreakoutNoFrameskip-v4环境中的游戏过程，包含近50万帧RGB图像及对应的动作、奖励等序列数据。它主要用于训练和验证深度强化学习模型，特别是基于值函数或策略梯度的算法，如DQN或PPO，以研究智能体如何从高维像素输入中学习有效的控制策略。

解决学术问题

该数据集为解决强化学习中的样本效率与泛化性问题提供了实证基础。通过提供真实环境交互轨迹，它支持离线强化学习研究，使学者能在无需在线探索的情况下评估算法性能。此外，数据集有助于探索从视觉输入到动作映射的表示学习，以及长期信用分配等核心挑战，推动了模仿学习与模型预测控制等方向的发展。

实际应用

在实际应用中，该数据集可服务于游戏AI的快速原型开发，允许研究者在模拟环境中测试算法而不消耗大量计算资源。它也被用于教育场景，作为教学工具帮助学生理解强化学习的基本流程。在工业领域，类似数据采集方法可迁移至机器人控制或自动驾驶系统，用于训练智能体在安全受限环境下进行决策。

数据集最近研究