L-RIPLIB
收藏Hugging Face2026-01-23 更新2026-01-24 收录
下载链接:
https://huggingface.co/datasets/YixiangHu/L-RIPLIB
下载链接
链接失效反馈官方服务:
资源简介:
L-RIPLIB是一个用于资源投资问题(RIP)的工业级基准测试数据集,源自云计算工作负载。它包含1,000个实例,任务规模从2,500到10,000不等,旨在支持现实中的大规模评估,并补充较小的经典基准测试(如PSPLIB)。每个实例以JSON格式存储,描述了一个任务集,包括时间窗口、持续时间、优先约束、每个任务的资源需求以及由OR-Tools CP-SAT在时间限制下生成的解决方案相关元数据。
创建时间:
2026-01-12
原始信息汇总
L-RIPLIB 数据集概述
数据集摘要
L-RIPLIB 是一个用于**资源投资问题(RIP)**的工业规模基准数据集,源自云计算工作负载。它包含 1,000 个实例,问题规模从 2,500 到 10,000 个任务不等,旨在支持真实的大规模评估,并作为较小经典基准(例如 PSPLIB)的补充。
每个实例存储为一个 JSON 记录,描述了一个包含时间窗口、持续时间、优先约束、每个任务的资源需求以及由 OR-Tools CP-SAT 在时间限制下生成的解决方案相关元数据的任务集。
支持的任务和使用场景
该数据集适用于:
- 具有优先约束和时间窗口的大规模项目/任务调度。
- 具有每种资源单位成本的资源供应/资源投资。
- 学习增强优化(例如,预测良好的调度、成本、界限或热启动解决方案)。
- 使用提供的“modified_data”增量进行动态/持续重新优化实验(参见“Modified_data”字段)。
语言
- 英语
数据集结构
数据格式
- 每个实例一个 JSON 对象。
数据字段(每个实例)
数据集使用以下关键元素:
- Tasks (
T):实例中的任务名称(活动)列表。 - Earliest_start (
e):每个任务的最早开始时间。 - Deadline (
l):每个任务的截止日期/最晚完成时间。 - Duration (
d):每个任务的持续时间。 - Dependencies (
P):指定哪些任务必须在其他任务开始之前完成的优先约束。 - Resources (
R):分配给每个任务的资源(资源需求)。 - Costs (
c):每种资源类型的单位成本。 - Task_start (
(S_i)_{i∈T}):在 0.1 × |T| 秒 的有限时间预算下获得的 CP-SAT 解决方案(任务开始时间)。 - Best_cost:所提供解决方案的总资源成本。
- Time:实例的 CP-SAT 求解时间。
- Bound:总资源成本的 CP-SAT 下界。
- Modified_data (
Δq):q和q之间的差异(用于表示实例修改)。
配置与数据文件
数据集包含以下配置和分割:
- 配置名称:default
- 数据文件:
- 分割:Easy,路径:
https://huggingface.co/datasets/YixiangHu/L-RIPLIB/resolve/main/data/Easy.jsonl - 分割:Normal,路径:
https://huggingface.co/datasets/YixiangHu/L-RIPLIB/resolve/main/data/Normal.jsonl - 分割:Hard,路径:
https://huggingface.co/datasets/YixiangHu/L-RIPLIB/resolve/main/data/Hard.jsonl
- 分割:Easy,路径:
许可证
- MIT 许可证
标签
- optimization
- planning
数据集规模类别
- 1K<n<10K
搜集汇总
数据集介绍

构建方式
在云计算工作负载的背景下,L-RIPLIB数据集通过从实际工业场景中提取资源投资问题实例构建而成。该数据集包含1,000个实例,每个实例以JSON格式记录,涵盖了任务规模从2,500到10,000不等的复杂调度问题。构建过程中,利用OR-Tools CP-SAT求解器在时间限制为0.1倍任务数量的条件下,为每个实例生成任务开始时间、最优成本及下界等元数据,确保了数据的现实性和可解性。此外,数据集还引入了“modified_data”字段,以支持动态优化实验,模拟实例修改场景。
使用方法
使用L-RIPLIB数据集时,研究者可将其应用于大规模项目调度与资源投资优化领域。通过加载JSON格式的实例文件,用户可以访问任务、约束、资源成本及预计算解决方案等字段,进行算法测试或模型训练。数据集支持学习增强优化任务,如预测调度成本或生成初始解,同时利用修改数据字段可模拟动态环境下的重新优化实验。建议结合OR-Tools等求解器进行基准比较,以评估新方法在现实工业规模问题上的性能。
背景与挑战
背景概述
资源投资问题(RIP)作为运筹学与项目管理领域的核心议题,长期致力于在满足时间窗口与优先约束的前提下,优化资源分配以最小化投资成本。L-RIPLIB数据集由研究团队于近年创建,旨在填补工业级大规模基准测试的空白,其灵感来源于云计算工作负载中的实际调度需求。该数据集包含一千个实例,任务规模介于两千五百至一万之间,通过集成OR-Tools CP-SAT求解器生成的元数据,为大规模项目调度与资源供给研究提供了实证基础,显著推动了学习增强优化与动态重优化方法的发展。
当前挑战
在资源投资问题领域,核心挑战在于处理高维任务依赖、复杂时间窗口与多资源类型协同优化所引发的组合爆炸,传统精确算法难以在有限时间内应对万级任务规模。数据集构建过程中,研究者需确保实例既保留云计算环境的真实性,又维持可求解性;通过CP-SAT在时间限制内生成可行解与下界,涉及平衡求解质量与计算效率,同时设计修改数据以支持动态场景,这要求严谨的约束建模与大规模实例的生成验证。
常用场景
解决学术问题
该数据集旨在解决传统资源投资问题基准规模有限、与现实工业场景脱节的学术研究瓶颈。通过提供多达一万个任务的大规模实例,L-RIPLIB弥补了如PSPLIB等经典数据集的不足,使学者能够深入探究在复杂约束下调度算法的可扩展性与鲁棒性。其意义在于建立了连接理论优化与工业实践的新桥梁,为学习增强优化、动态重调度等前沿方向提供了可靠的数据基础,显著提升了相关研究的实证严谨性与应用价值。
实际应用
在实际工业环境中,L-RIPLIB可直接应用于云计算中心的资源供给与任务调度优化。云服务商可利用其模拟工作负载,评估不同资源投资策略在成本控制与服务质量间的权衡,实现高效的资源动态配置。此外,数据集支持的修改数据字段便于模拟运维中的实时变更,为持续优化与弹性调度系统提供了验证场景,助力企业降低运营成本并提升资源利用率。
数据集最近研究
最新研究方向
在云计算资源优化领域,L-RIPLIB数据集作为工业级资源投资问题基准,正推动大规模任务调度的前沿探索。当前研究聚焦于学习增强优化方法,利用其提供的任务起始时间、资源成本及修改数据,训练神经网络预测高效调度方案或生成热启动解,以应对动态环境中的持续重优化挑战。这一方向不仅与云服务商降低运营成本的热点需求紧密相连,还促进了运筹学与人工智能的交叉融合,为实际工业场景中的资源分配决策提供了可扩展的评估框架。
以上内容由遇见数据集搜集并总结生成



