POBAX
收藏POBAX数据集概述
数据集简介
- 名称:POBAX (Partially Observable Benchmarks in JAX)
- 类型:强化学习基准测试集
- 特点:测试所有形式的局部可观测性
- 框架:完全基于JAX实现,支持快速GPU可扩展实验
- 状态:已被RLC 2025会议接受
包含环境
| 环境名称 | 类别 | ID | 描述 |
|---|---|---|---|
| Simple Chain | 对象不确定性和追踪 | simple_chain |
用于算法测试的诊断性POMDP |
| T-Maze | 对象不确定性和追踪 | tmaze_10 |
经典记忆测试环境 |
| RockSample | 情节非平稳性和对象不确定性 | rocksample_11_11, rocksample_15_15 |
经典岩石收集POMDP |
| Battleship | 对象不确定性和追踪 | battleship_10 |
单人战舰游戏(10x10) |
| Masked Mujoco | 瞬时特征 | {env_name}-{F/P/V}-v0 |
特征被屏蔽的Mujoco环境 |
| DMLab Minigrid | 空间不确定性 | Navix-DMLab-Maze-{01/02/03}-v0 |
MiniGrid版本的DeepMind Lab迷宫 |
| Visual Continuous Control | 视觉遮挡和瞬时特征 | {env_name}-pixels |
基于像素的Mujoco控制 |
| No-Inventory Crafter | 对象不确定性和空间不确定性 | craftax-pixels |
无库存的Crafter环境 |
基本用法
python import jax from pobax.envs import get_env
创建向量化环境
env, env_params = get_env("rocksample_11_11", env_key)
重置环境
obs, env_state = env.reset(reset_keys, env_params)
执行动作
obs, env_state, reward, done, info = env.step(step_keys, env_state, actions, env_params)
安装方法
-
PyPI安装: shell pip install pobax
-
开发安装: shell git clone git@github.com:{FORKED_USER}/pobax.git cd pobax pip install -e .
包含算法
- 循环PPO
- λ-discrepancy
- GTrXL
- 无记忆版本的循环PPO算法(通过
--memoryless标志启用)
实验示例
shell python -m pobax.algos.ppo --env tmaze_5 --debug
引用格式
bibtex @article{tao2025pobax, author = {Tao, Ruo Yu and Guo, Kaicheng and Allen, Cameron and Konidaris, George}, title = {Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains}, booktitle = {Proceedings of the Second Reinforcement Learning Conference}, journal = {The Reinforcement Learning Journal} url = {http://github.com/taodav/pobax}, year = {2025}, }




