MABIM (Multi-Agent Benchmark for Inventory Management)

Name: MABIM (Multi-Agent Benchmark for Inventory Management)
Creator: 微软亚洲研究院
Published: 2023-06-13 13:22:30
License: 暂无描述

arXiv2023-06-13 更新2024-06-21 收录

下载链接：

https://github.com/VictorYXL/ReplenishmentEnv

下载链接

链接失效反馈

官方服务：

资源简介：

MABIM是由微软亚洲研究院开发的多代理强化学习基准，专注于库存管理问题。该数据集模拟了一个多层级、多商品的库存管理环境，能够生成具有不同挑战性质的多样化任务。MABIM基于OpenAI Gym框架构建，旨在促进库存管理领域的研究进展，并提供一个平台来评估MARL算法在各种任务中的性能。数据集包含超过2000个真实需求数据，支持多层级仓库管理，并处理大量商品。MABIM不仅为解决库存管理挑战提供了一个开放和有效的基准，还通过其灵活性模拟了一系列MARL挑战，如规模扩展、合作、竞争、泛化和鲁棒性，进一步增强了其在各种场景中的应用性。

MABIM is a multi-agent reinforcement learning benchmark developed by Microsoft Research Asia, focusing on inventory management issues. This dataset simulates a multi-echelon, multi-product inventory management environment, capable of generating diverse tasks with varying challenge characteristics. Built on the OpenAI Gym framework, MABIM aims to advance research in the inventory management domain and provide a platform for evaluating the performance of multi-agent reinforcement learning (MARL) algorithms across various tasks. The dataset contains over 2,000 real demand data points, supports multi-echelon warehouse management, and handles a large volume of products. Not only does MABIM provide an open and effective benchmark for resolving inventory management challenges, but it also simulates a range of MARL challenges via its flexibility, such as scalability, cooperation, competition, generalization, and robustness, further enhancing its applicability across diverse scenarios.

提供机构：

微软亚洲研究院

创建时间：

2023-06-13

搜集汇总

数据集介绍

构建方式

MABIM 基于 OpenAI Gym 框架构建，模拟了一个多层级、多商品的库存管理环境。该数据集将每个仓库中的每种库存单位（SKU）建模为一个智能体，负责决策其补货数量。构建过程采用真实零售合作伙伴的超过2000种SKU的需求数据，并支持多级仓库结构（如单级、两级、三级）。环境通过矩阵运算高效存储所有SKU特征，并执行初始化、采购和销售等操作。系统内置了多种动作、奖励和观测状态的配置接口，允许用户根据需求自定义，从而生成多样化的任务场景。

使用方法

MABIM 提供统一的 Gym 接口，并封装了常用运筹学（如基础库存策略、(s, S)策略）和MARL算法（如IPPO、QTRAN）的包装器，便于集成与评估。用户可通过修改环境参数（如仓库层级数、SKU数量、容量限制）自定义任务，并使用内置的利润指标作为奖励函数。数据集还包含可视化工具，用于分析SKU和仓库状态。使用时，研究人员可基于标准任务调整设置，生成特定挑战场景，并在训练和测试集上评估算法性能，以对比不同策略的优劣。

背景与挑战

背景概述

多智能体强化学习（MARL）在工业场景中具有广泛应用前景，但面临规模扩展、复杂交互和非平稳动态等核心挑战。为系统性地推动该领域研究，微软亚洲研究院联合中国科学院自动化研究所与伊利诺伊大学厄巴纳-香槟分校，于2023年发布了MABIM（Multi-Agent Benchmark for Inventory Management）数据集。该基准基于多层级、多商品的库存管理仿真环境，融合了来自零售合作伙伴的真实需求数据，可灵活生成涵盖扩展性、合作、竞争、泛化与鲁棒性等维度的51项任务。MABIM不仅填补了现有MARL基准在支持大规模智能体、动态上下文和高度可定制性方面的空白，更通过经典运筹学方法与前沿MARL算法的对比评估，揭示了算法在实际复杂场景中的局限性，为库存管理与MARL的交叉研究提供了坚实的实验平台。

当前挑战

MABIM所聚焦的挑战涵盖领域问题与构建过程两个层面。在领域问题层面，库存管理需应对多层级仓库间的供需协调、有限仓储容量下的竞争性资源分配、以及外部需求波动引发的非平稳动态，这些特性天然构成了MARL算法的严峻考验。具体而言，算法需在智能体数量扩展至数千时保持训练稳定性，在上下游仓库间实现高效合作，并在容量受限时优化竞争策略。在构建过程中，挑战则体现为如何基于真实零售数据模拟复杂的多层级供应链，设计支持大规模矩阵运算的高效仿真引擎，同时提供可配置的观察、动作与奖励接口以覆盖多样化的MARL场景。此外，需确保环境的高保真度，包括超过2000个SKU的真实需求数据、避免冷启动的预热机制、以及公平的仓储空间分配策略，从而在学术严谨性与工业实用性之间取得平衡。

常用场景

经典使用场景

在供应链与运营管理研究领域，MABIM作为一个多层级、多商品库存管理仿真平台，最经典的使用场景是评估和对比多种多智能体强化学习算法在复杂库存决策任务上的性能。研究者通过调整仓库数量、商品种类、库存容量及需求波动等参数，构建从简单到高度复杂的实验环境，从而系统性地测试算法在规模化扩展、智能体间协作与竞争、以及非平稳环境适应等核心挑战下的表现。该平台基于真实零售数据驱动，支持超过两千个智能体并行决策，为MARL算法在工业级库存管理问题上的泛化能力提供了标准化、可复现的检验基准。

解决学术问题

MABIM有效解决了当前多智能体强化学习研究中缺乏面向现实工业场景的综合基准这一关键学术问题。传统MARL基准多局限于游戏或简单粒子环境，难以模拟库存管理中存在的规模化智能体数量、上下游仓库间的深度协作、有限仓储资源引发的竞争以及动态变化的需求模式等复杂挑战。该数据集通过内置51种不同难度的任务，系统揭示了现有算法如IPPO和QTRAN在智能体数量激增时训练不稳定、在资源受限下策略退化、在多层级协作中信息传递不足等缺陷。这些发现为学术界指明了MARL算法在鲁棒性、可扩展性与泛化能力上的改进方向，推动了从理论模型向实际供应链决策应用的跨越。

实际应用

在实际应用中，MABIM为企业供应链的智能化决策提供了高保真的仿真测试环境。零售商和制造商可利用该平台模拟从工厂到终端消费者的多级仓储网络，优化各节点的补货策略以平衡库存持有成本与缺货损失。通过嵌入真实历史需求数据，企业能够在部署算法前预演不同市场波动下的库存表现，从而降低试错成本。此外，MABIM支持的灵活参数配置允许针对特定业务场景定制，如促销季需求激增或供应商交货延迟，辅助运营团队制定更具韧性的库存管理方案，最终提升客户满意度并减少因过度库存或断货造成的经济损失。

数据集最近研究