POBAX

Name: POBAX
Creator: 布朗大学
Published: 2025-08-01 00:11:37
License: 暂无描述

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://github.com/taodav/pobax

下载链接

链接失效反馈

官方服务：

资源简介：

POBAX数据集是布朗大学的研究团队开发的开源强化学习数据集，旨在测试算法在部分可观察环境下的性能。该数据集包括定位与地图构建、视觉控制、游戏等多种类型的环境，涵盖了不同形式的局部可观察性。数据集要求算法具有难以学习的记忆功能，并通过增加状态表示中的信息量来提高性能。POBAX数据集在JAX中完全实现，支持快速模拟和GPU可扩展实验，为研究人员提供了一个强大的测试平台。

The POBAX dataset is an open-source reinforcement learning dataset developed by the research team at Brown University, designed to evaluate algorithm performance in partially observable environments. It encompasses diverse environments including localization and mapping, visual control, and games, spanning various forms of partial observability. This dataset requires algorithms to possess hard-to-learn memory capabilities, with performance improved by augmenting the informational content of state representations. Fully implemented in JAX, the POBAX dataset supports fast simulation and GPU-scalable experiments, providing researchers with a powerful testbed.

提供机构：

布朗大学

创建时间：

2025-08-01

原始信息汇总

POBAX数据集概述

数据集简介

名称：POBAX (Partially Observable Benchmarks in JAX)
类型：强化学习基准测试集
特点：测试所有形式的局部可观测性
框架：完全基于JAX实现，支持快速GPU可扩展实验
状态：已被RLC 2025会议接受

包含环境

环境名称	类别	ID	描述
Simple Chain	对象不确定性和追踪	`simple_chain`	用于算法测试的诊断性POMDP
T-Maze	对象不确定性和追踪	`tmaze_10`	经典记忆测试环境
RockSample	情节非平稳性和对象不确定性	`rocksample_11_11`, `rocksample_15_15`	经典岩石收集POMDP
Battleship	对象不确定性和追踪	`battleship_10`	单人战舰游戏(10x10)
Masked Mujoco	瞬时特征	`{env_name}-{F/P/V}-v0`	特征被屏蔽的Mujoco环境
DMLab Minigrid	空间不确定性	`Navix-DMLab-Maze-{01/02/03}-v0`	MiniGrid版本的DeepMind Lab迷宫
Visual Continuous Control	视觉遮挡和瞬时特征	`{env_name}-pixels`	基于像素的Mujoco控制
No-Inventory Crafter	对象不确定性和空间不确定性	`craftax-pixels`	无库存的Crafter环境

基本用法

python import jax from pobax.envs import get_env

创建向量化环境

env, env_params = get_env("rocksample_11_11", env_key)

重置环境

obs, env_state = env.reset(reset_keys, env_params)

执行动作

obs, env_state, reward, done, info = env.step(step_keys, env_state, actions, env_params)

安装方法

PyPI安装： shell pip install pobax
开发安装： shell git clone git@github.com:{FORKED_USER}/pobax.git cd pobax pip install -e .

包含算法

循环PPO
λ-discrepancy
GTrXL
无记忆版本的循环PPO算法(通过--memoryless标志启用)

实验示例

shell python -m pobax.algos.ppo --env tmaze_5 --debug

引用格式

bibtex @article{tao2025pobax, author = {Tao, Ruo Yu and Guo, Kaicheng and Allen, Cameron and Konidaris, George}, title = {Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains}, booktitle = {Proceedings of the Second Reinforcement Learning Conference}, journal = {The Reinforcement Learning Journal} url = {http://github.com/taodav/pobax}, year = {2025}, }

搜集汇总

数据集介绍

构建方式

POBAX数据集的构建基于JAX框架，旨在为强化学习中的部分可观测性问题提供全面的基准测试。研究团队首先对部分可观测性的多种形式进行了分类，并选取了代表性的环境任务，包括定位与建图、视觉控制、游戏等。这些环境均具有记忆可改进性（memory improvability），即通过增加状态信息可以显著提升智能体性能。数据集采用GPU加速的JAX实现，确保了高效的大规模实验能力。

特点

POBAX数据集的核心特点在于其覆盖了多种部分可观测性形式，包括视觉遮挡、对象追踪、空间不确定性等。每个环境任务均经过严格设计，确保性能差距源于智能体处理部分可观测性的能力，而非其他干扰因素。此外，数据集提供了标准化的超参数配置和算法实现，支持开箱即用的快速评估。其JAX实现进一步实现了GPU加速，显著提升了实验效率。

使用方法

使用POBAX数据集时，研究者可通过其提供的标准接口加载环境任务，并利用推荐的超参数配置进行算法评估。数据集支持多种强化学习算法，包括基于循环神经网络和Transformer的模型。用户可通过对比智能体在不同观测信息量下的性能表现，验证算法在部分可观测环境中的有效性。此外，数据集的GPU加速特性允许并行化实验，适合大规模基准测试和算法调优。

背景与挑战

背景概述

POBAX（Partially Observable Benchmarks in JAX）是由Ruo Yu Tao、Kaicheng Guo、Cameron Allen和George Konidaris等研究人员于2025年提出的一个开源基准测试库，专注于强化学习中的部分可观测性问题。该数据集旨在提供一个全面的测试平台，以评估算法在多种部分可观测环境中的表现。POBAX涵盖了多种任务类型，包括定位与地图构建、视觉控制、游戏等，并且这些任务均具有“记忆可改进性”（memory improvability）特性，即算法的性能提升主要源于其对部分可观测性的处理能力。POBAX的推出为强化学习领域的研究提供了重要的实验基础，特别是在处理复杂、真实世界中的部分可观测问题时。

当前挑战

POBAX数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：部分可观测性问题本身具有多样性，例如视觉遮挡、未知对手意图等，这使得设计一个通用的基准测试库变得复杂。POBAX需要确保其覆盖多种部分可观测性形式，同时避免因任务过于简单或单一而无法反映真实世界的复杂性。2) 构建过程中的挑战：POBAX在构建过程中需要确保所有任务均具有记忆可改进性，即算法的性能提升确实源于其对部分可观测性的处理能力，而非其他因素（如超参数选择或网络结构）。此外，POBAX还需要在JAX框架下实现高效的GPU加速，以支持大规模实验，这对环境的设计和优化提出了较高的技术要求。

常用场景

经典使用场景

POBAX数据集作为强化学习领域中的部分可观测性基准测试套件，其经典使用场景主要集中在评估算法在多样化部分可观测环境中的记忆改进能力。例如，在视觉遮挡、空间定位、动态游戏等复杂场景中，研究者通过POBAX的标准化环境（如T-Maze、RockSample、Battleship等）验证算法是否能够通过历史信息推理解决状态混淆问题。其JAX实现的高性能并行计算特性，使得大规模超参数调优和跨环境对比成为可能。

实际应用

在实际应用中，POBAX的GPU加速环境可快速验证算法在机器人导航（如DeepMind Lab迷宫）、连续控制（如Masked Mujoco）和多智能体博弈等场景的适应性。例如，在自动驾驶领域，算法通过POBAX的视觉遮挡任务学习处理传感器信息缺失；在工业自动化中，基于Battleship环境开发的策略可优化资源搜索效率。其开箱即用的超参数推荐和JAX后端支持，显著降低了企业研发复杂决策系统的实验成本。

衍生相关工作

POBAX的提出直接启发了多篇强化学习领域的重要研究。基于其环境设计的λ-discrepancy算法（Allen et al., 2024）改进了传统PPO在长序列记忆中的表现；Transformer-XL在视觉控制任务中的适配验证了注意力机制对部分可观测性的有效性。此外，该数据集被扩展用于多智能体部分可观测基准（如Benchmarl）和元学习研究，成为后续工作如POPGym、Craftax等基准的参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集