OG-MARL

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/instadeepai/og-marl

下载链接

链接失效反馈

官方服务：

资源简介：

OG-MARL提供了一系列用于离线多Agent强化学习的数据集和基准，旨在通过静态数据集构建复杂多Agent系统的分散控制器，填补了离线MARL缺乏标准化基准的空白。

OG-MARL provides a collection of datasets and benchmarks for offline multi-agent reinforcement learning (MARL). It is designed to develop decentralized controllers for complex multi-agent systems using static datasets, filling the gap resulting from the lack of standardized benchmarks for offline MARL.

创建时间：

2022-11-08

原始信息汇总

数据集概述

数据集简介

Offline Multi-Agent Reinforcement Learning (MARL) 数据集和基线，旨在通过使用静态数据集构建复杂多智能体系统的分散控制器，适用于实际应用。OG-MARL 提供了一系列多样化的数据集和基线，统一了 API 并提供了一套易于使用的工具。

数据集下载与使用

克隆仓库：git clone https://github.com/instadeepai/og-marl.git
安装依赖：pip install -e . 和 pip install flashbax==0.1.2
下载环境依赖：例如使用 SMACv1：bash install_environments/smacv1.sh
下载数据集：python examples/download_dataset.py --env=smac_v1 --scenario=3m
运行基线：例如运行 MAICQ：python baselines/main.py --env=smac_v1 --scenario=3m --dataset=Good --system=maicq

数据集 API

提供了一个演示笔记本，展示了如何使用 OG-MARL 的数据集 API：

数据集 API 演示

支持的环境和场景

OG-MARL 支持多种流行的 MARL 环境，包括 Good、Medium、Poor 和 Replay 数据集，以基准测试不同数据质量下的离线 MARL 算法。

环境列表

环境	场景	智能体数量	动作类型	观测类型	奖励类型	类型	来源
🔫SMAC v1	3m <br/> 8m <br/> 2s3z <br/> 5m_vs_6m <br/> 27m_vs_30m <br/> 3s5z_vs_3s6z <br/> 2c_vs_64zg	3 <br/> 8 <br/> 5 <br/> 5 <br/> 27 <br/> 8 <br/> 2	Discrete	Vector	Dense	Homog <br/> Homog <br/> Heterog <br/> Homog <br/> Homog <br/> Heterog <br/> Homog	source
💣SMAC v2	terran_5_vs_5 <br/> zerg_5_vs_5 <br/> terran_10_vs_10	5 <br/> 5 <br/> 10	Discrete	Vector	Dense	Heterog	source
🚅Flatland	3 Trains <br/> 5 Trains	3 <br/> 5	Discrete	Vector	Sparse	Homog	source
🐜MAMuJoCo	2x3 HalfCheetah <br/> 2x4 Ant <br/> 4x2 Ant	2 <br/> 2 <br/> 4	Cont.	Vector	Dense	Heterog <br/> Homog <br/> Homog	source
🐻PettingZoo	Pursuit <br/> Co-op Pong	8 <br/> 2	Discrete <br/> Discrete	Pixels <br/> Pixels	Dense	Homog <br/> Heterog	source

来自先前工作的数据集

包括来自多个先前工作的数据集，例如：

Pan et al. (2022) 的 MAMuJoCo 和 MPE 数据集
Shao et al. (2023) 和 Wang et al. (2023) 的 SMAC v1 和 MAMuJoCo 数据集

引用

如果使用 OG-MARL 进行工作，请引用：

@inproceedings{formanek2023ogmarl, author = {Formanek, Claude and Jeewa, Asad and Shock, Jonathan and Pretorius, Arnu}, title = {Off-the-Grid MARL: Datasets and Baselines for Offline Multi-Agent Reinforcement Learning}, year = {2023}, publisher = {AAMAS}, booktitle = {Extended Abstract at the 2023 International Conference on Autonomous Agents and Multiagent Systems}, }

搜集汇总

数据集介绍

构建方式

OG-MARL数据集的构建基于多种流行的多智能体强化学习（MARL）基准环境，通过收集和整理这些环境中的静态数据，形成了一系列具有不同质量分布的离线数据集。这些数据集包括了从高质量的‘Good’到低质量的‘Poor’以及‘Replay’等多种类型，旨在为离线MARL算法提供一个标准化的基准测试平台。数据集的生成过程严格遵循了多智能体系统的复杂性和多样性，确保了数据集在不同环境和场景下的广泛适用性。

特点

OG-MARL数据集的主要特点在于其多样性和高质量的标准化。数据集涵盖了多种流行的MARL环境，如SMAC、MAMuJoCo和PettingZoo等，每个环境都包含了多个场景和不同质量的数据分布。此外，数据集提供了统一的API接口和易于使用的工具，使得研究人员可以方便地访问和使用这些数据。通过在Hugging Face上的托管，数据集的访问性和社区参与度得到了进一步提升。

使用方法

使用OG-MARL数据集，用户首先需要克隆GitHub仓库并安装相关依赖。通过运行特定的脚本，用户可以下载所需的环境文件和数据集。数据集的使用可以通过简单的Python代码实现，例如使用Flashbax库直接从Hugging Face下载数据。此外，OG-MARL还提供了一个示例Notebook，展示了如何使用数据集API进行数据读取和处理。用户可以根据需要选择不同的环境和场景，以及不同质量的数据集，进行离线MARL算法的训练和评估。

背景与挑战

背景概述

在多智能体强化学习（MARL）领域，离线学习方法通过利用静态数据集构建复杂多智能体系统的分散控制器，展现出巨大的应用潜力。然而，当前离线MARL缺乏一个标准化的基准来衡量研究进展。OG-MARL数据集由InstaDeep公司主导开发，旨在填补这一空白，提供了一系列多样化的数据集和基准，涵盖了多个流行的MARL环境。该数据集不仅提供了统一的API和易于使用的工具，还通过与开源社区的紧密合作，推动了离线MARL研究的标准化和实用化。

当前挑战

OG-MARL数据集在构建过程中面临多项挑战。首先，如何确保离线数据集的质量和多样性，以有效评估和提升离线MARL算法的性能，是一个关键问题。其次，不同环境和场景下的数据分布差异较大，如何设计合理的基准测试以公平比较不同算法，也是一个重要挑战。此外，数据集的维护和更新，以及与新兴技术的兼容性，也是持续需要解决的问题。

常用场景

经典使用场景

在多智能体强化学习（MARL）领域，OG-MARL数据集的经典使用场景主要集中在离线多智能体系统的训练与评估。通过利用静态数据集，研究人员可以构建和优化复杂的去中心化控制器，从而在各种多智能体环境中实现高效的策略学习。例如，在星际争霸II的微观管理任务中，OG-MARL数据集被广泛用于训练智能体以协同作战，提升团队的整体表现。

衍生相关工作

OG-MARL数据集的发布催生了一系列相关研究工作，包括但不限于改进的离线MARL算法、新的数据集生成方法和更高效的训练技术。例如，一些研究团队基于OG-MARL数据集开发了新的保守Q学习算法，显著提升了离线训练的稳定性和性能。此外，OG-MARL数据集还被用于验证和改进其他多智能体系统的基准测试方法。

数据集最近研究