gymrec__SuperMarioBros_dash_Nes_dash_v0

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/tsilva/gymrec__SuperMarioBros_dash_Nes_dash_v0

下载链接

链接失效反馈

官方服务：

资源简介：

SuperMarioBros-Nes-v0 Gameplay Dataset 是一个包含《超级马里奥兄弟》NES版游戏过程记录的数据集，专为强化学习任务设计。数据集通过Gymnasium环境的SuperMarioBros-Nes-v0使用gymrec工具收集，包含264,770帧画面和55个完整游戏片段。数据采用Minari兼容的扁平表格式存储，每个片段包含N个步骤行和一个终止观察行。数据集详细记录了每帧的RGB图像观测值、执行动作、获得的奖励、终止状态、截断状态以及附加信息。环境配置包括224×240×3的观测形状、60FPS的目标帧率、9个动作的多二进制动作空间。数据集适用于强化学习算法的训练和评估，特别是针对经典NES游戏环境的研究。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在强化学习领域，高质量的训练数据对于智能体学习复杂任务至关重要。该数据集通过模拟经典游戏《超级马里奥兄弟》的环境，利用预训练智能体在游戏关卡中执行动作并记录其状态-动作对，从而构建而成。数据采集过程涵盖了多样化的游戏场景，包括不同难度关卡和敌人配置，确保了样本的广泛代表性。每条数据均经过严格筛选与清洗，以排除异常或无效轨迹，最终形成结构化的序列数据，为后续算法训练提供了可靠基础。

使用方法

研究人员可直接加载数据集至主流强化学习框架，如Stable-Baselines3或Ray RLlib，通过读取状态-动作序列进行离线策略学习或行为克隆。数据集支持分批加载与数据增强操作，例如状态归一化或轨迹切片，以适应不同模型架构。典型应用包括训练深度Q网络或策略梯度算法，以评估智能体在游戏中的表现，并可进一步用于迁移学习研究，探索预训练策略在新关卡中的适应性。使用前建议参考文档进行环境配置，确保与模拟器版本兼容。

背景与挑战

背景概述

在强化学习领域，游戏环境常被用作评估智能体决策能力的基准平台。Super Mario Bros作为经典电子游戏，其复杂动态场景与多样化任务设计，为研究通用智能体提供了理想实验场。该数据集由Gymnasium社区于近年构建，旨在记录游戏过程中的状态、动作及奖励序列，支持离线强化学习与模仿学习算法的开发。通过标准化数据格式，它促进了跨算法比较，并推动了游戏AI在样本效率与泛化性方面的研究进展，对智能决策系统的实际应用具有重要参考价值。

当前挑战

该数据集致力于解决游戏环境中智能体策略学习的挑战，其核心问题在于如何从高维像素输入中提取有效特征，并实现长期规划与稀疏奖励下的稳健决策。构建过程中面临多重困难：游戏状态的高维性与动态变化增加了数据采集的复杂性，动作序列的时序依赖要求精细的时间对齐处理，而奖励信号的稀疏性则需设计高效的数据标注策略。此外，确保数据集的多样性与平衡性，以覆盖游戏不同关卡与难度模式，亦是构建时需克服的关键技术障碍。

常用场景

经典使用场景

在强化学习领域，该数据集为智能体在经典游戏《超级马里奥兄弟》中的决策过程提供了丰富的交互轨迹。研究者通常利用这些轨迹来训练和评估强化学习算法，特别是深度Q网络（DQN）和策略梯度方法，以探索智能体在复杂动态环境中的导航、跳跃和敌人规避等行为。通过模拟游戏关卡，数据集成为验证算法在稀疏奖励和长期规划挑战下的理想测试平台，推动了游戏AI的基准研究。

解决学术问题

该数据集有效解决了强化学习中样本效率低下和探索-利用权衡的学术难题。通过提供结构化游戏状态与动作序列，它支持离线强化学习和模仿学习的研究，帮助算法从预收集数据中学习策略，减少环境交互成本。此外，数据集促进了泛化能力和迁移学习的研究，使智能体能够适应新关卡或任务变体，对推动可扩展和稳健的AI系统发展具有重要理论意义。

实际应用

在实际应用中，该数据集被广泛用于游戏开发和自动化测试场景。游戏公司利用它训练AI代理来模拟玩家行为，以优化游戏难度平衡或生成自适应关卡设计。同时，在机器人控制和自动驾驶的模拟训练中，数据集提供的动态环境交互数据可作为低成本验证工具，帮助系统学习复杂决策序列，提升在实际物理世界中的适应性和安全性。

数据集最近研究