GraphAllocBench
收藏arXiv2026-01-29 更新2026-01-30 收录
下载链接:
https://github.com/jzh001/GraphAllocBench
下载链接
链接失效反馈官方服务:
资源简介:
GraphAllocBench是由加利福尼亚大学洛杉矶分校等机构联合开发的基于图结构的资源分配基准测试集,其核心环境CityPlannerEnv模拟城市级资源调度场景。该数据集通过二部图建模资源与需求间的复杂依赖关系,支持自定义目标函数、偏好条件和高维可扩展性,包含非凸帕累托前沿等挑战性任务。数据生成过程采用Gymnasium框架构建动态分配机制,并引入新型评估指标PNDS和OS。主要应用于多目标强化学习领域,旨在解决复杂组合优化任务中偏好感知策略的泛化能力评估问题。
GraphAllocBench is a graph-based resource allocation benchmark jointly developed by the University of California, Los Angeles (UCLA) and other institutions. Its core environment, CityPlannerEnv, simulates urban-scale resource scheduling scenarios. This dataset models the complex dependencies between resources and demands via bipartite graphs, supports custom objective functions, preference conditions and high-dimensional scalability, and includes challenging tasks such as non-convex Pareto frontiers. The data generation process constructs a dynamic allocation mechanism using the Gymnasium framework, and introduces two novel evaluation metrics: PNDS and OS. It is primarily applied in the field of multi-objective reinforcement learning, aiming to address the problem of evaluating the generalization ability of preference-aware strategies in complex combinatorial optimization tasks.
提供机构:
加利福尼亚大学洛杉矶分校; 南加州大学·创意技术研究院; 美国陆军研究实验室
创建时间:
2026-01-29
原始信息汇总
GraphAllocBench 数据集概述
数据集简介
GraphAllocBench 是一个用于多目标偏好条件策略学习(PCPL)的基准测试和工具包。它提供了一个灵活的资源分配环境、一组可配置的问题定义以及一套评估工具,使研究人员和从业人员能够设计强调不同权衡和帕累托前沿的场景。
核心功能
- 通过改变需求数量、资源数量、目标数量以及目标形状(例如正弦形、凹形、凸形、钟形、S形)来创建可定制的问题。
- 生成多样化的帕累托前沿和目标场景,以评估 PCPL 和标量化策略。
- 运行批量偏好扫描和标准化评估(帕累托前沿提取、超体积、非支配解比例、排序分数、推理辅助工具)。
主要组件
该工具包包含四个主要模块:
graphallocbench.city_env– 环境实现(CityPlannerEnv)以及神经架构/特征提取器。graphallocbench.evaluation– 用于评估已训练 PCPL 代理的实用工具(帕累托前沿提取、超体积、排序分数、推理辅助工具等)。graphallocbench.train_utils– 训练辅助工具(单/并行 PPO 训练实用程序)。graphallocbench.constants– 集中化的全局常量(例如,RL 模型类、允许的设备、推理批次大小)。
环境与配置
- 环境实现详情(观察空间、动作空间、需求矩阵、分配矩阵、生产函数、目标函数和奖励模式)请参阅配套文档:GraphAllocBench.md。
- 问题配置 YAML 文件描述了资源容量、需求、目标和标量化设置。用户可以创建自己的配置或修改
graphallocbench/configs/problems/*下的示例。
使用示例
- 快速开始示例展示了如何使用
CityPlannerEnv环境和run_experiments评估函数。 - 更多示例可在
graphallocbench/examples/*中找到。 - 提供了与 Stable Baselines3 PPO 结合使用的示例 PCPL 设置,演示了如何使用偏好条件奖励训练和评估代理。
技术需求
- 需要 Python 3.10 或更高版本。
许可信息
- 采用 MIT 许可证(详见
LICENSE文件)。
其他说明
- 原始研究代码保存在
legacy/*目录下。 - 如果使用 GraphAllocBench,请引用随附的研究论文(BibTeX 将在可用时添加)。
搜集汇总
数据集介绍

构建方式
在复杂资源分配领域,多目标强化学习面临现有基准测试环境过于简化、缺乏可扩展性的挑战。GraphAllocBench通过其核心环境CityPlannerEnv构建,该环境模拟城市规模的资源分配场景,采用基于二部图的资源-需求依赖结构。构建过程定义了资源、需求、生产与目标函数等核心要素,通过可配置的依赖图、目标函数形态与偏好条件,生成了包含不同复杂度层级的标准化问题集合。环境支持灵活调整资源数量、需求类型与目标维度,并采用增量式分配机制,使基准能够系统性地评估算法在离散非凸帕累托前沿与高维组合优化任务中的表现。
特点
该数据集的核心特征体现在其高度灵活性与结构复杂性。它突破了传统多目标基准局限于网格环境或连续优化的框架,引入了基于图结构的资源分配问题,能够模拟真实世界中复杂的依赖关系。数据集提供了从简单对数目标到振荡、稀疏奖励等困难目标函数的多样化问题谱系,涵盖凸与非凸帕累托前沿形态。其创新性在于支持用户自定义偏好条件,并引入了比例非支配解与排序分数两项新颖评估指标,与超体积指标形成互补,能够全面衡量策略的偏好一致性与鲁棒性。这种设计使得基准既能评估算法在固定问题上的性能,又能检验其对动态偏好与复杂图结构的适应能力。
使用方法
在算法评估实践中,研究者可利用该基准对偏好条件化策略学习模型进行系统化测试。使用方法遵循标准训练-评估流程:在训练阶段,从狄利克雷分布中随机采样偏好向量,输入策略网络并基于平滑切比雪夫标量化奖励进行优化;在评估阶段,则采用Das and Dennis方法在目标单纯形上均匀采样偏好,通过确定性策略 rollout 获取最终分配状态并计算目标向量。通过计算预测解集的超体积比、非支配解比例及排序分数,可综合量化算法在逼近真实帕累托前沿、解集质量及偏好对齐三个维度的性能。基准的模块化设计允许用户自定义环境配置,从而针对特定算法特性设计针对性测试场景。
背景与挑战
背景概述
在强化学习领域,多目标强化学习旨在处理现实世界中普遍存在的多个相互冲突的优化目标。偏好条件策略学习作为该领域的前沿方向,致力于训练单一模型以根据用户指定的偏好权重灵活逼近帕累托最优解。然而,现有基准测试大多局限于玩具任务和固定环境,缺乏现实复杂性与可扩展性。为填补这一空白,由加州大学洛杉矶分校、南加州大学创意技术研究所及美国陆军研究实验室的研究人员于2026年共同提出了GraphAllocBench基准。该基准基于新颖的图结构资源分配沙盒环境CityPlannerEnv构建,其核心研究问题聚焦于如何在具有复杂依赖关系的高维组合分配任务中,实现高效且一致的偏好条件策略学习。GraphAllocBench通过提供多样化的目标函数、可变的偏好条件和高维可扩展性问题集,显著推动了多目标强化学习向更复杂、更贴近实际应用场景的方向发展。
当前挑战
GraphAllocBench所针对的领域核心挑战在于解决复杂、高维组合空间中的多目标资源分配问题,其本质是学习能够根据连续偏好输入、在非凸且可能不连续的帕累托前沿上精准导航的策略。具体而言,构建该数据集面临多重技术挑战:首先,需要设计一个既能模拟真实城市管理复杂性(如资源-需求二分图依赖结构),又能保持高度可定制性和可扩展性的沙盒环境。其次,必须定义一系列涵盖稀疏奖励、非凸帕累托前沿、局部最优陷阱及不平衡目标等难点的多样化测试问题,以充分暴露现有算法的局限性。最后,为准确评估偏好条件策略的性能,需超越传统的超体积指标,设计能够直接量化策略偏好一致性与鲁棒性的新型评估指标,如非支配解比例和排序分数,这对基准的严谨性和指导性提出了更高要求。
常用场景
经典使用场景
在资源分配与城市管理模拟领域,GraphAllocBench 作为一个基于图结构的基准测试集,其最经典的使用场景是评估偏好条件化多目标强化学习算法的性能。该基准以 CityPlannerEnv 沙盒环境为核心,模拟城市资源在复杂依赖网络中的动态分配过程。研究者通过定义多样化的目标函数、偏好权重与图结构,系统性地测试算法在非凸帕累托前沿、稀疏奖励和高维观测空间下的泛化能力与鲁棒性。
解决学术问题
该数据集有效解决了多目标强化学习中偏好条件化策略学习的评估瓶颈问题。传统基准多局限于简单网格环境或连续优化问题,难以捕捉现实场景中高维组合分配的结构复杂性。GraphAllocBench 通过引入图结构依赖、离散非凸帕累托前沿及可扩展的目标函数,为算法在复杂决策空间中的偏好一致性、解集多样性与收敛稳定性提供了严谨的量化评估框架,推动了多目标策略学习向更实际、更可扩展的方向发展。
衍生相关工作
围绕 GraphAllocBench 已衍生出一系列经典研究工作,主要集中在图神经网络与多目标强化学习的交叉领域。例如,基于异构图神经网络的偏好条件化策略学习方法,通过注意力池化与偏好向量融合,显著提升了算法在高维图结构中的泛化性能。同时,该数据集催生了如平滑切比雪夫标量化等新型优化技术,以及偏好一致性度量指标的设计,为后续研究提供了算法改进与评估标准的重要参照。
以上内容由遇见数据集搜集并总结生成



