microsoft/MILP-Evolve

Name: microsoft/MILP-Evolve
Creator: microsoft
Published: 2025-03-20 19:02:28
License: 暂无描述

Hugging Face2025-03-20 更新2025-04-08 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/MILP-Evolve

下载链接

链接失效反馈

官方服务：

资源简介：

MILP-Evolve是一个混合整数线性规划问题类和实例的大规模数据集，通过基于LLM的进化框架生成，包含无限的MILP问题类和实例。该数据集旨在促进研究，开发能够跨问题类泛化的MILP基础模型，并支持多种学习任务，包括整数间隙预测、学习分支和将MILP实例与自然语言描述对齐。

MILP-Evolve is a large-scale dataset of Mixed Integer Linear Programming (MILP) problem classes and instances, generated using an LLM-based evolutionary framework, containing an unlimited number of MILP problem classes and instances. The dataset is designed to facilitate research in developing foundation models for MILP that generalize across problem classes and supports various learning tasks, including integrality gap prediction, learning to branch, and aligning MILP instances with natural language descriptions.

提供机构：

microsoft

搜集汇总

数据集介绍

构建方式

在混合整数线性规划研究领域，数据集的构建往往依赖于传统问题库，而MILP-Evolve数据集则采用了一种创新的生成范式。该数据集通过基于大型语言模型的进化框架，从初始种子问题类出发，迭代演化出多样化的MILP问题类别，并能够为每个类别生成近乎无限数量的具体问题实例。其构建过程强调类别的多样性与实例的可扩展性，核心代码与生成的问题类均以结构化形式提供，确保了数据生成过程的可复现性与透明度。

特点

作为面向MILP基础模型研究的大规模资源，该数据集展现出多维度特征。其核心在于提供了跨越不同问题类别的丰富实例集合，每个类别下可包含多达上千个以标准MPS格式存储的实例。数据集设计支持多项前沿学习任务，包括整数间隙预测、分支决策学习以及自然语言与MILP实例的对齐学习。这种多任务支持特性使其成为探索MILP问题通用表征与求解策略的理想测试平台。

使用方法

研究人员可利用该数据集开展多项机器学习与运筹学交叉研究。对于基础使用，用户可通过解压提供的压缩包直接获取MPS格式的问题实例。针对特定学习任务，例如整数间隙预测或对比学习，数据集提供了示例数据文件及配套的代码生成工具。更深入的研究，如分支学习数据集的构建，则需参照其GitHub仓库中的源代码，基于Ecole库进行定制化生成与训练集划分，从而实现端到端的研究流程。

背景与挑战

背景概述

混合整数线性规划作为运筹学与组合优化的核心范式，在资源调度、路径规划等现实问题中具有广泛应用。由微软研究团队于2024年提出的MILP-Evolve数据集，旨在通过基于大语言模型的进化框架，构建大规模、多样化的MILP问题类与实例集合。该数据集致力于推动面向MILP的基础模型研究，解决传统求解器泛化能力有限的核心难题，为学习分支策略、预测整数间隙等任务提供统一基准，标志着优化领域向数据驱动范式的重要演进。

当前挑战

在混合整数线性规划领域，构建通用基础模型面临双重挑战：其一，问题类别的结构异质性导致模型难以跨领域泛化，例如生产调度与网络设计问题在约束形式上存在本质差异；其二，数据生成过程需平衡多样性与可控性，进化框架既要避免生成无效或重复实例，又需确保实例的数学性质符合学习任务需求。此外，大规模MPS格式数据的存储与高效提取，以及多任务学习数据的协同构建，均为实际工程部署带来显著复杂度。

常用场景

经典使用场景

在混合整数线性规划（MILP）领域，MILP-Evolve数据集为构建跨问题泛化的基础模型提供了关键支撑。其经典使用场景聚焦于利用大规模、多样化的MILP问题类与实例，训练机器学习模型以应对规划与优化中的核心挑战。研究者通过该数据集能够系统评估模型在未知问题结构上的泛化能力，从而推动智能求解器从特定任务训练迈向通用化推理的范式转变。

解决学术问题

该数据集旨在解决MILP研究中模型泛化性不足的长期难题。传统方法往往针对单一问题类设计，缺乏跨类别的适应能力。MILP-Evolve通过LLM驱动的进化框架生成海量多样化问题类，使学者能够探索积分间隙预测、分支决策学习等核心任务的通用解法。其意义在于为MILP基础模型建立了可重复的评估基准，加速了优化理论与机器学习的前沿融合。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，特别是在学习分支策略与泛化性评估方面。部分研究借鉴其进化生成框架，构建了面向特定产业场景的MILP问题库；另有工作基于其提供的对比学习数据，开发了融合语义理解的神经求解器。这些进展共同推动了“优化即服务”生态的发展，为后续研究提供了可扩展的算法验证平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集