five

gymrec__BreakoutNoFrameskip_dash_v4

收藏
Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/tsilva/gymrec__BreakoutNoFrameskip_dash_v4
下载链接
链接失效反馈
官方服务:
资源简介:
BreakoutNoFrameskip-v4 Gameplay Dataset 是一个来自 Gymnasium 环境 'BreakoutNoFrameskip-v4' 的游戏录制数据集,使用 gymrec 工具收集。数据集包含 494,029 帧和 50 个游戏片段,环境配置包括帧跳过设置为 1,目标 FPS 为 30,观测形状为 210 × 160 × 3 的 RGB 帧,动作空间为离散的 4 个动作。数据集结构采用 Minari 兼容的扁平表格格式,每个片段包含 N 个步骤行和一个终止观察行。字段包括 episode_id、seed、observations、actions、rewards、terminations、truncations、infos、session_id、collector 和 gymrec_version。适用于强化学习任务,特别是与 Atari 游戏 Breakout 相关的研究。
创建时间:
2026-03-09
原始信息汇总

BreakoutNoFrameskip-v4 Gameplay Dataset 数据集概述

数据集基本信息

  • 数据集名称: BreakoutNoFrameskip-v4 Gameplay Dataset
  • 语言: 英语 (en)
  • 许可证: MIT
  • 数据规模: 100K<n<1M
  • 任务类别: 强化学习 (reinforcement-learning)
  • 标签: gymnasium, atari, BreakoutNoFrameskip-v4

数据集摘要

统计项
总帧数 494,029
回合数 50
环境 BreakoutNoFrameskip-v4
后端 Atari (ALE-py)
收集器 breakout
gymrec 版本 0.1.0+23e91c8, 0.1.0+72aad18

环境配置

设置项
帧跳过 1
目标帧率 30
粘性动作概率 0.0
观测形状 210 × 160 × 3
观测数据类型 uint8
动作空间 离散 (Discrete)
动作数量 4

数据集结构

  • 格式: Minari 兼容的扁平表格式。可使用 minari-export 转换为原生 Minari HDF5 格式。
  • 模式: 每个回合包含 N 个步骤行加上一个终止观测行 (N+1 模式)。终止观测是最后一个步骤后的最终状态,其动作为空,奖励/终止/截断/信息字段为 null。

数据列说明:

  • episode_id (binary(16)): 每个回合的唯一 UUID 标识符。
  • seed (intnull): 用于 env.reset() 的 RNG 种子(在每个回合的第一行设置,其他行为 null)。
  • observations (Image): 来自环境的 RGB 帧。
  • actions (list): 此步骤采取的动作(终止观测行为 [])。
  • rewards (floatnull): 获得的奖励(终止观测行为 null)。
  • terminations (boolnull): 回合是否自然终止(终止观测行为 null)。
  • truncations (boolnull): 回合是否被截断(终止观测行为 null)。
  • infos (strnull): 以 JSON 格式表示的额外环境信息(终止观测行为 null)。
  • session_id (binary(16)): 将来自一次 gymrec record 运行的所有回合分组的 UUID。
  • collector (string): 数据收集者("human", "random", 或未来的智能体名称)。
  • gymrec_version (string): 用于记录的 gymrec 版本(例如 "0.1.0+abc1234")。

使用方法

python from datasets import load_dataset ds = load_dataset("tsilva/gymrec__BreakoutNoFrameskip_dash_v4")

来源与制作

  • 数据来源: 使用 gymrec 从 Gymnasium 环境 BreakoutNoFrameskip-v4 收集的游戏录像。
  • 收集者: breakout
  • 整理者: tsilva
搜集汇总
数据集介绍
main_image_url
构建方式
在强化学习研究领域,高质量的游戏交互数据对于算法训练与评估至关重要。本数据集依托Gymnasium环境中的BreakoutNoFrameskip-v4版本,通过gymrec工具系统性地采集了游戏交互记录。数据收集过程严格遵循环境配置,采用每秒30帧的目标帧率,观测空间为210×160×3的RGB图像,动作空间为离散的4个选项。总计包含50个完整回合,涵盖494,029帧画面,每回合以N步加一终止观测行的结构组织,确保了时序轨迹的完整性。
使用方法
研究人员可通过Hugging Face数据集库便捷加载本资源,使用标准接口即可访问结构化游戏轨迹。数据可直接用于离线强化学习算法训练,或作为基线策略的行为克隆参考。借助Minari导出功能,用户能将其转换为专业强化学习库兼容格式,进而开展策略评估、模型预训练等实验。该数据集亦适用于研究帧跳过处理对算法性能的影响,为Atari游戏领域的算法比较提供实证基础。
背景与挑战
背景概述
在强化学习领域,游戏环境常被用作评估智能体性能的基准。BreakoutNoFrameskip-v4数据集由研究人员tsilva于2023年通过gymrec工具构建,该数据集源自Gymnasium平台中的Atari游戏环境,专注于记录《Breakout》游戏的无帧跳过版本。其核心研究问题在于为离线强化学习算法提供高质量、结构化的交互轨迹数据,以支持策略评估与模型训练。该数据集的发布丰富了强化学习社区的开放资源,推动了基于真实游戏交互的算法比较与基准测试,对智能决策系统的研究具有显著影响力。
当前挑战
该数据集旨在解决Atari游戏环境中智能体决策与控制的挑战,特别是面对高维视觉输入与稀疏奖励信号时,如何有效学习长期策略。在构建过程中,挑战包括确保数据的一致性与完整性,例如处理终端观察行的特殊结构,以及维护多版本gymrec工具采集的数据兼容性。此外,数据集需平衡人类与随机策略收集的样本,以覆盖多样化的行为模式,同时保持观测帧的时序对齐与元数据准确记录,这对后续算法的泛化能力提出了严格要求。
常用场景
经典使用场景
在强化学习领域,Atari游戏环境常被用作基准测试平台,以评估智能体在复杂视觉输入下的决策能力。该数据集记录了BreakoutNoFrameskip-v4环境中的游戏过程,包含近50万帧RGB图像及对应的动作、奖励等序列数据。它主要用于训练和验证深度强化学习模型,特别是基于值函数或策略梯度的算法,如DQN或PPO,以研究智能体如何从高维像素输入中学习有效的控制策略。
解决学术问题
该数据集为解决强化学习中的样本效率与泛化性问题提供了实证基础。通过提供真实环境交互轨迹,它支持离线强化学习研究,使学者能在无需在线探索的情况下评估算法性能。此外,数据集有助于探索从视觉输入到动作映射的表示学习,以及长期信用分配等核心挑战,推动了模仿学习与模型预测控制等方向的发展。
实际应用
在实际应用中,该数据集可服务于游戏AI的快速原型开发,允许研究者在模拟环境中测试算法而不消耗大量计算资源。它也被用于教育场景,作为教学工具帮助学生理解强化学习的基本流程。在工业领域,类似数据采集方法可迁移至机器人控制或自动驾驶系统,用于训练智能体在安全受限环境下进行决策。
数据集最近研究
最新研究方向
在强化学习领域,Atari游戏环境作为经典基准测试平台,持续推动着智能体决策与泛化能力的研究。基于BreakoutNoFrameskip-v4等游戏数据集,当前前沿探索聚焦于样本高效离线强化学习算法,旨在利用有限交互数据训练出稳健策略。同时,结合生成模型与世界模型的方法正成为热点,通过从游戏录像中学习环境动态,实现更精准的状态预测与规划。这些进展不仅提升了智能体在稀疏奖励场景下的表现,也为跨任务迁移与元学习提供了丰富实证基础,进一步加速了通用人工智能在复杂环境中的适应性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作