Space Fortress

Name: Space Fortress
Creator: 卡内基梅隆大学
Published: 2018-09-07 04:17:44
License: 暂无描述

arXiv2018-09-07 更新2024-06-21 收录

下载链接：

https://github.com/agakshat/spacefortress

下载链接

链接失效反馈

官方服务：

资源简介：

Space Fortress是一个由卡内基梅隆大学开发的强化学习测试平台，旨在研究深度强化学习中的时间敏感性和策略的突然上下文依赖性切换。该数据集通过一个街机风格的太空堡垒游戏来模拟，要求玩家控制飞船摧毁堡垒，同时需适应不同的射击速率和时间间隔。数据集的特点包括稀疏的奖励结构和需要识别关键上下文点以改变策略。Space Fortress的应用领域包括研究人类与AI在动态环境中的协作，比较人类与人工代理的技能获取技术，以及通过认知架构如ACTR进行少量样本学习。

Space Fortress is a reinforcement learning testbed developed by Carnegie Mellon University, designed to investigate temporal sensitivity and abrupt contextual dependency shifts in policies within deep reinforcement learning. This dataset is simulated via an arcade-style Space Fortress game, where players control a spaceship to destroy the fortress while adapting to varying firing rates and time intervals. Key characteristics of this dataset include a sparse reward structure and the requirement to identify critical context points for policy adjustments. Application domains of Space Fortress include researching human-AI collaboration in dynamic environments, comparing skill acquisition techniques between humans and artificial agents, and conducting few-shot learning via cognitive architectures such as ACT-R.

提供机构：

卡内基梅隆大学

创建时间：

2018-09-07

搜集汇总

数据集介绍

构建方式

在强化学习领域，现有基准常忽视现实任务中的关键挑战，如策略的上下文依赖突变和时间敏感性。Space Fortress数据集的构建源于这一背景，旨在填补研究空白。该数据集基于上世纪80年代心理学家开发的街机风格游戏Space Fortress，通过将其转化为OpenAI Gym环境实现。构建过程涉及设计一个部分可观测的强化学习任务，其中智能体需操控飞船在无摩擦环境中飞行，攻击中央堡垒。观测输入为84x84像素的灰度游戏屏幕渲染图，动作空间包含无操作、发射导弹、向前推进及左右转向等五项。游戏的核心机制引入了上下文依赖的策略切换：当堡垒脆弱性低于10时，射击间隔需大于250毫秒；一旦脆弱性达到10，则需在250毫秒内快速双发以摧毁堡垒。此外，数据集提供两种版本：原始“Youturn”版本需智能体自主导航，而简化版“Autoturn”则自动将飞船指向堡垒，以降低导航复杂度。通过这种设计，数据集成功融入了稀疏奖励、时间敏感及上下文突变等特性，为强化学习算法提供了严谨的测试平台。

特点

Space Fortress数据集的核心特点在于其巧妙融合了现实世界中智能体常面临的复杂挑战。该数据集突出强调了上下文依赖的策略突变，智能体必须精准识别堡垒脆弱性达到10的关键节点，并瞬间将射击策略从慢速切换为快速双发，随后在堡垒摧毁后再次切换回慢速模式，这种突变性对算法的上下文感知能力提出了极高要求。同时，数据集内嵌了严格的时间敏感性，射击间隔的临界时间窗口（250毫秒）独立于智能体的决策速度，迫使算法将时间作为独立变量进行建模，而非依赖于帧率或内部时钟。此外，数据集的奖励结构呈现高度稀疏性，默认设置下仅对堡垒摧毁、飞船死亡及导弹发射给予奖惩，这加剧了探索与信用分配的难度。实验表明，即使引入密集奖励，当前最先进的强化学习算法如PPO、A2C和Rainbow仍难以掌握游戏，凸显了该数据集在推动算法应对上下文与时间敏感性方面的独特价值。

使用方法

Space Fortress数据集作为强化学习研究的新兴基准，其使用方法旨在系统评估算法在上下文与时间敏感性任务上的性能。研究者可通过开源的OpenAI Gym环境接入数据集，利用提供的观测（连续四帧84x84灰度图像）与动作空间训练智能体。数据集支持对关键特性进行可控调整，例如通过修改临界时间间隔（如从250毫秒调整为125毫秒或400毫秒）来专门研究算法的时间敏感性；亦可通过调整奖励结构（如将默认稀疏奖励改为密集奖励或引入脆弱性变化奖励）来探究上下文识别能力。典型的使用流程包括：在“Autoturn”或“Youturn”版本上训练算法，以人类玩家表现作为基线进行对比；通过消融实验分析奖励稀疏性、上下文识别难度等因素对性能的影响；并利用权重迁移实验检验算法在不同时间设置下的泛化能力。数据集附带的详细人类基准结果（如平均得分与堡垒摧毁次数）为算法评估提供了可靠参照，从而助力于开发能够适应动态现实环境的先进强化学习模型。

背景与挑战

背景概述

Space Fortress数据集由卡内基梅隆大学的研究团队于2020年引入，旨在应对强化学习领域中对上下文依赖策略突变与时间敏感性研究的不足。该数据集源自上世纪80年代心理学家为研究人类技能习得而开发的街机风格游戏，其核心研究问题聚焦于智能体在动态环境中如何识别关键上下文切换点并适应时间约束。作为强化学习基准，Space Fortress填补了现有基准如Arcade Learning Environment的空白，推动了针对上下文与时间敏感性的算法创新，并为人类与人工智能协作研究提供了实验平台。

当前挑战

Space Fortress数据集所解决的领域挑战在于强化学习智能体对上下文突变与时间独立性的建模能力。具体而言，智能体需在游戏过程中识别堡垒脆弱性达到临界值的关键点，并瞬间切换射击策略，同时适应固定的时间间隔约束，这要求算法超越传统状态空间探索，实现对潜在上下文与时间维度的理解。构建过程中的挑战包括设计稀疏奖励结构以模拟真实决策场景，以及平衡游戏导航复杂度以确保算法可学习性，例如通过简化自动转向版本来降低初始学习难度。

常用场景

经典使用场景

在强化学习研究领域，Space Fortress数据集常被用作评估算法在复杂动态环境中表现的关键基准。该数据集源自一款经典的街机风格游戏，要求智能体操控飞船在无摩擦环境中飞行并攻击堡垒，其核心挑战在于智能体必须根据堡垒脆弱性状态的变化，在两种截然不同的射击策略之间进行即时切换。这一特性使得Space Fortress成为研究上下文敏感性和时间感知能力的理想平台，研究人员通过该数据集能够深入探索智能体在策略转换和时间约束下的学习能力，从而推动强化学习算法在动态环境适应性的发展。

衍生相关工作

围绕Space Fortress数据集衍生出多项经典研究工作，主要集中在算法改进与理论拓展两个方向。部分研究基于该数据集的上下文敏感性特性，开发了新型循环神经网络架构如SF-GRU，以增强智能体对状态序列的建模能力。另一些工作则利用其时间间隔可调的特点，探索了跨时间设置的策略迁移问题，为时间泛化研究提供了实证基础。此外，结合认知架构如ACT-R的启发，研究人员尝试将人类学习机制融入强化学习框架，推动了小样本学习与混合智能系统的发展。这些衍生工作共同深化了对复杂环境中智能体行为学习的理解。

数据集最近研究