RetroAct

Name: RetroAct
Creator: 索菲亚大学St. Kliment Ohridski学院INSAIT
Published: 2025-04-03 20:01:41
License: 暂无描述

arXiv2025-04-03 更新2025-04-07 收录

下载链接：

https://github.com/insait-institute/GenieRedux

下载链接

链接失效反馈

官方服务：

资源简介：

RetroAct数据集是一个包含974个虚拟环境的集合，这些环境基于Stable Retro框架。数据集通过注释每个环境的行为和控制来组织，以便于生成具有相似行为的跨环境的大规模交互数据集。数据集中的环境主要是各种风格的复古游戏，共分为483个具有相似控制的行为类别，其中最常见的是平台游戏。通过随机代理在环境中自动收集数据，创建了两个子数据集：Platformers-200和Platformers-50，分别用于预训练和微调。

The RetroAct dataset is a collection of 974 virtual environments built upon the Stable Retro framework. The dataset is structured by annotating the behaviors and control schemes of each individual environment, to facilitate the generation of large-scale cross-environment interaction datasets that exhibit similar behavioral characteristics. The environments in the dataset are primarily retro games across various styles, which are categorized into 483 behavioral categories with consistent control mechanisms, among which platform games are the most common. Data was automatically collected via random agents interacting within these environments, leading to the creation of two subdatasets: Platformers-200 and Platformers-50, which are respectively intended for pre-training and fine-tuning.

提供机构：

索菲亚大学St. Kliment Ohridski学院INSAIT

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

RetroAct数据集的构建基于对974个复古游戏环境的系统性标注与分类，研究团队首先利用Stable Retro框架获取原始游戏环境，随后通过人工标注对每个环境的运动风格、摄像机视角和控制轴三个维度进行标准化分类。针对平台类游戏（占比最高，483个），进一步映射了五种基础动作（左移、右移、上移、下移、跳跃）的按钮配置，最终形成包含2,925个行为标签和2,898个控制标签的结构化数据集。为平衡计算成本，研究者构建了两个子集：包含200个游戏的预训练集（Platformers-200，460万帧）和50个动作一致性游戏的微调集（Platformers-50，480万帧），所有数据均通过随机智能体在虚拟环境中的交互自动采集。

特点

RetroAct的核心价值在于其多维度标注体系与规模化虚拟环境覆盖。数据集首次对复古游戏环境的行为模式（如平台跳跃、横版射击等）和控制逻辑（方向轴、动作映射）进行标准化描述，突破了传统游戏数据集仅提供原始帧序列的局限。其环境样本量（974个）远超同类数据集ALE（57个）和CoinRun（1个），且通过动作一致性分组实现了跨环境的控制语义对齐。特别值得注意的是，数据集通过随机智能体采集的交互数据天然具备动作-观察对的强关联性，避免了传统人类演示数据中动作推断的不确定性，为世界模型的训练提供了精准的监督信号。

使用方法

该数据集主要支持多环境世界模型的训练与评估。研究团队提出的两阶段使用范式包括：1）预训练阶段，利用Platformers-200子集训练基础世界模型（GenieRedux-G），通过随机智能体数据学习跨环境的通用动态规律；2）微调阶段，采用Platformers-50子集提升特定动作组合下的控制精度。用户可通过环境分组标签快速筛选具有相似动力学特性的环境集群，或基于控制标注构建特定动作空间的训练集。评估时建议采用∆PSNR指标衡量动作控制效果，配合PSNR和FID评估生成帧质量。对于新环境适配，可结合论文提出的AutoExplore智能体实现基于模型不确定性的数据增强。

背景与挑战

背景概述

RetroAct数据集由INSAIT、苏黎世联邦理工学院和慕尼黑工业大学的Nedko Savov等研究人员于2025年创建，旨在解决生成式交互环境中的多环境世界模型训练问题。该数据集基于Stable Retro框架，包含974个复古游戏环境，并通过行为标签和控制描述进行标注分组。RetroAct的核心研究问题是通过自动化数据收集降低世界模型训练成本，其创新性地采用随机代理和自主探索代理生成交互数据，显著提升了视频生成模型的视觉保真度和可控性。该数据集通过提供大规模、多样化的环境行为标注，为多环境世界模型的预训练和微调建立了新范式，对强化学习和生成式AI领域具有重要影响。

当前挑战

RetroAct面临的核心挑战包括：1) 领域问题层面，传统世界模型依赖昂贵的人类演示数据，难以实现跨环境动作泛化，而RetroAct需解决随机探索策略导致的动作覆盖不足问题；2) 构建过程中，需处理异构游戏环境的行为标注一致性（如483个平台游戏的动作映射），以及海量交互数据（约960万图像）的质量控制。技术挑战涉及开发不依赖环境奖励的AutoExplore代理，其探索效率直接影响模型性能提升，同时需设计Token Distance Cross-Entropy损失函数来解决视频标记器的语义距离敏感性问题。

常用场景

经典使用场景

RetroAct数据集在生成式交互环境研究中扮演了关键角色，其经典使用场景包括训练多环境世界模型（如GenieRedux-G）以模拟多样化虚拟环境的行为动态。通过标注974个复古游戏环境的行为与控制标签，该数据集支持模型学习跨环境的共享动力学特征，尤其适用于平台类游戏（占比达483个），为研究者提供了低成本获取大规模交互数据的标准化框架。

衍生相关工作

基于RetroAct的GenieRedux-G模型催生了多项创新研究：1) 不确定性驱动的AutoExplore Agent成为探索-利用平衡的新范式；2) 标记距离交叉熵损失（TDCE Loss）推动了离散表征生成模型的优化理论；3) 多环境联合训练框架被迁移至自动驾驶模拟（如GAIA-1）。数据集构建方法论更启发了Stable Retro等平台的大规模环境标注实践。

数据集最近研究