SafeOR-Gym

Name: SafeOR-Gym
Creator: 普渡大学化学工程学院
Published: 2025-06-03 04:59:45
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/li-group/SafeOR-Gym

下载链接

链接失效反馈

官方服务：

资源简介：

SafeOR-Gym是一个针对安全强化学习算法的基准测试套件，包含九个针对复杂约束下安全RL的运筹学环境。每个环境模拟了现实世界的规划、调度或控制问题，具有基于成本的约束违反、规划范围和混合离散-连续的动作空间。该套件与OmniSafe提供的约束马尔可夫决策过程（CMDP）接口无缝集成。SafeOR-Gym为安全RL提供了具有挑战性和实用性的测试平台，旨在促进未来在现实世界决策问题中的安全RL研究。

SafeOR-Gym is a benchmark suite for safe reinforcement learning algorithms, which includes nine operations research environments targeting safe RL under complex constraints. Each environment simulates real-world planning, scheduling or control problems, featuring cost-based constraint violations, planning horizons and mixed discrete-continuous action spaces. This suite seamlessly integrates with the Constrained Markov Decision Process (CMDP) interface provided by OmniSafe. SafeOR-Gym provides a challenging and practical testbed for safe RL, aiming to promote future safe RL research in real-world decision-making problems.

提供机构：

普渡大学化学工程学院

创建时间：

2025-06-03

原始信息汇总

SafeOR-Gym 数据集概述

数据集简介

SafeOR-Gym 是一个用于安全强化学习（SafeRL）的基准测试套件，专注于工业相关的运筹学（OR）问题。该套件包含九个Gym兼容的环境，旨在评估SafeRL算法在现实、结构化且安全关键的决策问题上的表现。

关键特性

环境数量：9个
兼容性：原生兼容OmniSafe框架
主要应用领域：工业规划和实时控制

包含的环境

Production Scheduling in Air Separation Unit (ASUEnv)
- 优化液体生产以最小化电力和生产成本
- 满足需求并尊重单位容量限制
Generation and Transmission Expansion Planning (GTEPEnv)
- 在长期投资和运营约束下规划电力系统的容量扩展
Grid Integrated Energy Storage (GridStorageEnv)
- 在电网设置中管理存储调度，考虑价格套利和安全限制
Integrated Scheduling and Maintenance
- 联合优化生产计划和在设备可用性约束下的维护窗口
Multi-Echelon Supply Chain (InvMgmtEnv)
- 模拟供应链网络中多个层级的库存动态
Multiperiod Blending Problem (BlendingEnv)
- 解决在比率、可用性和需求约束下的多时间步混合优化问题
Resource Task Network
- 在有限的库存和任务延迟下跨时间调度资源消耗任务
State Task Network
- 在共享单元上执行的任务中建模材料状态的离散时间转换
Unit Commitment
- 优化发电机的开关决策，同时满足需求和尊重爬坡和备用约束

基准测试设置

实验管理：使用ExperimentGrid管理SafeRL训练实验
算法类别：包括一阶、二阶、原始和离线SafeRL方法
训练配置：可定义每轮步数和总轮数
日志记录：支持TensorBoard和Weights & Biases (WandB)
并行性：支持环境和CPU并行

安装要求

Python版本：3.8+
依赖项：PyTorch ≥ 1.10
可选依赖项：Gurobi / CPLEX用于优化

许可证

许可证类型：MIT License

贡献

欢迎贡献和错误报告
支持扩展环境或为新算法进行基准测试

搜集汇总

数据集介绍

构建方式

SafeOR-Gym数据集的构建基于实际工业操作研究问题，旨在填补现有安全强化学习基准在结构化约束和混合整数决策方面的不足。该数据集包含九个精心设计的环境，每个环境模拟了现实中的规划、调度或控制问题，如资源任务网络、单元承诺和多周期混合问题。这些环境通过Constrained Markov Decision Process (CMDP) 接口与OmniSafe框架无缝集成，确保约束条件的显式建模和处理。数据集的构建过程包括问题定义、状态空间和动作空间的设计、动态转移规则的制定以及成本和奖励函数的配置，从而为安全强化学习算法提供了一个高度结构化的测试平台。

使用方法

SafeOR-Gym数据集的使用方法包括与OmniSafe框架的集成，支持多种安全强化学习算法的直接评估。用户可以通过标准化的CMDP接口访问环境状态和动作空间，并利用内置的约束处理机制进行策略优化。数据集还提供了详细的实验配置和评估标准，包括训练和测试阶段的奖励与成本曲线分析。用户可以通过调整算法参数和环境设置，探索不同约束条件下的性能表现，并通过与优化求解器（如Gurobi）的结果对比，验证算法的有效性。此外，数据集的开源代码和文档支持快速部署和扩展，适用于学术研究和工业应用。

背景与挑战

背景概述

SafeOR-Gym是由普渡大学Davidson化学工程学院与埃克森美孚技术工程公司能源科学部门的研究团队于2025年提出的安全强化学习基准测试套件。该数据集针对实际运筹学问题，设计了9个包含混合整数决策、非线性约束和工业复杂度的仿真环境，填补了现有安全RL基准在能源系统、制造和供应链等高风险领域的空白。其创新性在于将约束马尔可夫决策过程（CMDP）与OmniSafe框架无缝集成，为评估安全RL算法在结构化约束和长周期规划问题中的性能提供了标准化测试平台。

当前挑战

SafeOR-Gym面临的核心挑战体现在两个维度：领域问题层面，需解决具有混合离散-连续动作空间、非凸约束和组合逻辑的工业决策问题，如电力系统机组组合中的爬坡约束违反、多周期库存管理的随机需求满足等；构建过程层面，需精确模拟设备可用性约束（如RTNEnv中的批次处理设备复用）、物料平衡方程（如BlendingEnv中的非线性混合效应）等工业细节，同时保持Gym接口的兼容性。当前算法在GridStorageEnv等环境中仍存在35%以上的最优性差距，暴露出传统安全RL方法处理复杂OR问题的局限性。

常用场景

经典使用场景

SafeOR-Gym数据集专为安全强化学习（Safe RL）算法在复杂实际运筹问题中的性能评估而设计。该数据集包含九个运筹学环境，涵盖生产调度、电力系统优化、供应链管理等典型场景。例如，在资源任务网络（RTNEnv）中，智能体需在满足设备可用性和库存限制的条件下优化批次生产调度；在单位承诺问题（UCEnv）中，智能体需协调发电机启停与功率分配以满足电网安全约束。这些环境通过混合离散-连续动作空间和结构化约束，模拟了工业决策中的典型挑战。

解决学术问题

SafeOR-Gym填补了现有安全强化学习基准的空白，解决了传统控制任务（如机器人仿真）无法反映实际工业问题复杂性的局限。其核心贡献在于：1）通过约束马尔可夫决策过程（CMDP）接口明确建模安全约束，支持算法在训练和部署期间严格避免违规行为；2）引入混合整数决策和非凸约束，推动算法在资源分配、多周期规划等场景中的理论创新；3）提供标准化评估框架，揭示了当前安全RL方法在长视界、组合优化问题上的根本性缺陷，为后续研究指明方向。

实际应用

该数据集直接服务于能源系统、制造业等高价值领域的安全决策。例如，GridStorageEnv模拟了电网与储能系统的协同调度，可优化可再生能源消纳并预防过载风险；BlendingEnv为炼油行业提供符合质量标准的混合调度策略；SchedMaintEnv则通过整合设备维护与生产计划，降低工业设备的意外停机概率。这些环境已通过OmniSafe框架与真实工业软件栈集成，支持从仿真到部署的完整流程。

数据集最近研究