L-RIPLIB

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/YixiangHu/L-RIPLIB

下载链接

链接失效反馈

官方服务：

资源简介：

L-RIPLIB是一个用于资源投资问题（RIP）的工业级基准测试数据集，源自云计算工作负载。它包含1,000个实例，任务规模从2,500到10,000不等，旨在支持现实中的大规模评估，并补充较小的经典基准测试（如PSPLIB）。每个实例以JSON格式存储，描述了一个任务集，包括时间窗口、持续时间、优先约束、每个任务的资源需求以及由OR-Tools CP-SAT在时间限制下生成的解决方案相关元数据。

创建时间：

2026-01-12

原始信息汇总

L-RIPLIB 数据集概述

数据集摘要

L-RIPLIB 是一个用于**资源投资问题（RIP）**的工业规模基准数据集，源自云计算工作负载。它包含 1,000 个实例，问题规模从 2,500 到 10,000 个任务不等，旨在支持真实的大规模评估，并作为较小经典基准（例如 PSPLIB）的补充。

每个实例存储为一个 JSON 记录，描述了一个包含时间窗口、持续时间、优先约束、每个任务的资源需求以及由 OR-Tools CP-SAT 在时间限制下生成的解决方案相关元数据的任务集。

支持的任务和使用场景

该数据集适用于：

具有优先约束和时间窗口的大规模项目/任务调度。
具有每种资源单位成本的资源供应/资源投资。
学习增强优化（例如，预测良好的调度、成本、界限或热启动解决方案）。
使用提供的“modified_data”增量进行动态/持续重新优化实验（参见“Modified_data”字段）。

语言

英语

数据集结构

数据格式

每个实例一个 JSON 对象。

数据字段（每个实例）

数据集使用以下关键元素：

Tasks (T)：实例中的任务名称（活动）列表。
Earliest_start (e)：每个任务的最早开始时间。
Deadline (l)：每个任务的截止日期/最晚完成时间。
Duration (d)：每个任务的持续时间。
Dependencies (P)：指定哪些任务必须在其他任务开始之前完成的优先约束。
Resources (R)：分配给每个任务的资源（资源需求）。
Costs (c)：每种资源类型的单位成本。
Task_start ((S_i)_{i∈T})：在 0.1 × |T| 秒 的有限时间预算下获得的 CP-SAT 解决方案（任务开始时间）。
Best_cost：所提供解决方案的总资源成本。
Time：实例的 CP-SAT 求解时间。
Bound：总资源成本的 CP-SAT 下界。
Modified_data (Δq)：q 和 q 之间的差异（用于表示实例修改）。

配置与数据文件

数据集包含以下配置和分割：

配置名称：default
数据文件：
- 分割：Easy，路径：https://huggingface.co/datasets/YixiangHu/L-RIPLIB/resolve/main/data/Easy.jsonl
- 分割：Normal，路径：https://huggingface.co/datasets/YixiangHu/L-RIPLIB/resolve/main/data/Normal.jsonl
- 分割：Hard，路径：https://huggingface.co/datasets/YixiangHu/L-RIPLIB/resolve/main/data/Hard.jsonl

许可证

MIT 许可证

数据集规模类别

1K<n<10K

搜集汇总

数据集介绍

构建方式

在云计算工作负载的背景下，L-RIPLIB数据集通过从实际工业场景中提取资源投资问题实例构建而成。该数据集包含1,000个实例，每个实例以JSON格式记录，涵盖了任务规模从2,500到10,000不等的复杂调度问题。构建过程中，利用OR-Tools CP-SAT求解器在时间限制为0.1倍任务数量的条件下，为每个实例生成任务开始时间、最优成本及下界等元数据，确保了数据的现实性和可解性。此外，数据集还引入了“modified_data”字段，以支持动态优化实验，模拟实例修改场景。

使用方法

使用L-RIPLIB数据集时，研究者可将其应用于大规模项目调度与资源投资优化领域。通过加载JSON格式的实例文件，用户可以访问任务、约束、资源成本及预计算解决方案等字段，进行算法测试或模型训练。数据集支持学习增强优化任务，如预测调度成本或生成初始解，同时利用修改数据字段可模拟动态环境下的重新优化实验。建议结合OR-Tools等求解器进行基准比较，以评估新方法在现实工业规模问题上的性能。

背景与挑战

背景概述

资源投资问题（RIP）作为运筹学与项目管理领域的核心议题，长期致力于在满足时间窗口与优先约束的前提下，优化资源分配以最小化投资成本。L-RIPLIB数据集由研究团队于近年创建，旨在填补工业级大规模基准测试的空白，其灵感来源于云计算工作负载中的实际调度需求。该数据集包含一千个实例，任务规模介于两千五百至一万之间，通过集成OR-Tools CP-SAT求解器生成的元数据，为大规模项目调度与资源供给研究提供了实证基础，显著推动了学习增强优化与动态重优化方法的发展。

当前挑战

在资源投资问题领域，核心挑战在于处理高维任务依赖、复杂时间窗口与多资源类型协同优化所引发的组合爆炸，传统精确算法难以在有限时间内应对万级任务规模。数据集构建过程中，研究者需确保实例既保留云计算环境的真实性，又维持可求解性；通过CP-SAT在时间限制内生成可行解与下界，涉及平衡求解质量与计算效率，同时设计修改数据以支持动态场景，这要求严谨的约束建模与大规模实例的生成验证。

常用场景

解决学术问题

该数据集旨在解决传统资源投资问题基准规模有限、与现实工业场景脱节的学术研究瓶颈。通过提供多达一万个任务的大规模实例，L-RIPLIB弥补了如PSPLIB等经典数据集的不足，使学者能够深入探究在复杂约束下调度算法的可扩展性与鲁棒性。其意义在于建立了连接理论优化与工业实践的新桥梁，为学习增强优化、动态重调度等前沿方向提供了可靠的数据基础，显著提升了相关研究的实证严谨性与应用价值。

实际应用

在实际工业环境中，L-RIPLIB可直接应用于云计算中心的资源供给与任务调度优化。云服务商可利用其模拟工作负载，评估不同资源投资策略在成本控制与服务质量间的权衡，实现高效的资源动态配置。此外，数据集支持的修改数据字段便于模拟运维中的实时变更，为持续优化与弹性调度系统提供了验证场景，助力企业降低运营成本并提升资源利用率。

数据集最近研究