foundation-models/milp-instances-parquet

Name: foundation-models/milp-instances-parquet
Creator: foundation-models
Published: 2026-04-11 02:14:24
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/foundation-models/milp-instances-parquet

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # MILP instances (Parquet) Competition-style instances packed as **Zstd-compressed Parquet** shards for partial downloads. ## Schema | Column | Type | Description | |--------|------|-------------| | `instance_id` | string | Stem name (e.g. `load_balancing_0`) | | `task` | string | `item_placement`, `load_balancing`, or `anonymous` | | `split` | string | `train` or `valid` | | `json_text` | string | Raw contents of the sidecar `.json` | | `mps_gz` | binary | Bytes of the `.mps.gz` file | Tasks are **independent** (separate folders / configs). Shards are named `{split}-shard-NNNNN-of-MMMMM.parquet`.

提供机构：

foundation-models

搜集汇总

数据集介绍

构建方式

在运筹学与组合优化领域，混合整数线性规划（MILP）实例是算法评估与竞赛的核心资源。该数据集以Parquet格式组织，采用Zstd压缩技术将原始MILP实例高效打包为分片存储。每个实例包含唯一的标识符、任务类别、数据划分标签，并同时保存了描述问题的JSON文本与MPS格式的二进制模型文件，确保了数据的完整性与可追溯性。这种结构化的构建方式不仅便于分布式处理与部分下载，也为大规模优化实验提供了可靠的数据基础。

特点

本数据集的一个显著特点是其任务独立性，涵盖了物品放置、负载均衡与匿名任务等多个经典优化场景，且明确划分为训练集与验证集，支持机器学习模型的开发与验证。数据以列式存储的Parquet格式呈现，配合高性能的Zstd压缩，大幅提升了存储效率与读取速度。同时，每个实例均附带原始的JSON元数据与MPS模型文件，使得研究者既能直接解析结构化信息，也能利用标准求解器处理原始优化问题，兼顾了灵活性与实用性。

使用方法

使用该数据集时，研究者可根据任务类型与数据划分选择相应的Parquet分片进行加载，利用支持Parquet与Zstd的数据处理框架（如Pandas或Apache Arrow）高效读取。实例中的JSON文本字段提供了问题的结构化描述，可用于特征提取或元分析；而MPS二进制字段则可解压后直接输入至CPLEX、Gurobi等专业求解器进行优化求解。这种设计使得数据集既适用于传统运筹学算法的基准测试，也支持基于机器学习的优化方法研究，实现了跨领域应用的便捷对接。

背景与挑战

背景概述

混合整数线性规划（MILP）作为运筹学与优化理论的核心分支，在供应链管理、资源分配等现实场景中具有广泛应用。该数据集由研究团队于近年构建，旨在为机器学习与优化交叉领域提供标准化基准实例，通过结构化存储MPS格式问题实例及其元数据，支持高效数据访问与分布式处理，推动了数据驱动优化算法的发展。

当前挑战

该数据集致力于解决混合整数线性规划问题的高效求解与泛化能力挑战，其核心在于如何利用机器学习模型从历史实例中学习启发式策略，以降低传统求解器的计算开销。在构建过程中，需克服实例格式统一、大规模数据压缩存储与分布式访问的技术难题，同时确保任务划分的独立性以适配多样化研究需求。

常用场景

经典使用场景

在运筹学与组合优化领域，混合整数线性规划（MILP）是解决复杂决策问题的核心工具。该数据集以Parquet格式高效存储了竞赛风格的MILP实例，为算法开发与基准测试提供了标准化平台。研究人员通常利用这些实例训练机器学习模型，以预测分支定界策略或加速求解过程，从而在保持求解精度的同时显著提升计算效率。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，特别是在神经组合优化与学习增强求解方向。例如，基于图中继网络的求解器、利用强化学习优化分支策略的框架，以及端到端的预测模型，这些工作显著提升了MILP问题的求解速度与质量。相关成果已发表在顶级机器学习与运筹学期刊上，形成了持续演进的研究脉络。

数据集最近研究