AutoCOBench

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/SimonZ1881/AutoCOBench

下载链接

链接失效反馈

官方服务：

资源简介：

AutoCOBench是一个组合优化问题分类数据集，将自然语言场景映射到组合优化问题。它包括5个问题领域和43种不同的组合优化问题类型，共包含4300个问题场景样本。

创建时间：

2025-05-09

原始信息汇总

AutoCOBench数据集概述

基本信息

许可证: Apache-2.0
下载大小: 16,633,853字节
数据集大小: 33,014,080字节
训练集样本数: 4,300

数据特征

字段:
- title: 字符串类型，问题场景标题
- description: 字符串类型，问题场景的自然语言描述
- label: 字符串类型，组合优化问题类型
- data_template: 字符串类型，以字典形式的标准问题数据输入
- user_template: 字符串类型，以字典形式的用户自定义数据输入

数据领域与问题类型

覆盖领域: 5个
- VRP (车辆路径问题): 包含23种问题类型
- SP (调度问题): 包含6种问题类型
- BPP (装箱问题): 包含8种问题类型
- GP (图问题): 包含4种问题类型
- Knapsack (背包问题): 包含1种问题类型

数据统计

总问题场景样本数: 4,300
训练集:
- 字节数: 33,014,080
- 样本数: 4,300

搜集汇总

数据集介绍

构建方式

AutoCOBench数据集通过系统化整合组合优化领域的经典问题类型，构建了一个覆盖5大领域、43种子类别的结构化语料库。其构建过程采用多阶段标注策略：首先基于运筹学文献梳理问题分类体系，随后通过领域专家将自然语言场景描述映射为标准问题模板，最终生成包含数据输入模板和用户自定义标签的标准化样本。每个样本均经过双重校验以确保问题类型标注的准确性。

特点

该数据集的核心价值在于其多层次的语义映射能力，不仅提供自然语言描述与组合优化问题的对应关系，还包含标准数据输入模板和可扩展的用户自定义标签。数据集覆盖车辆路径规划、车间调度、装箱问题等典型领域，特别设计了数据模板字段以支持算法输入的自动化生成。4300个样本的规模为少样本学习提供了充足资源，而结构化的问题分类体系则便于进行跨领域迁移学习研究。

使用方法

研究人员可通过解析data_template字段直接获取标准算法输入数据，或利用user_template实现动态数据绑定。典型应用流程包括：基于description字段进行问题类型分类，通过模板生成具体优化问题实例，最终调用求解器进行求解。数据集支持端到端的组合优化问题自动化建模研究，也可拆解用于自然语言理解、模板生成等子任务。HuggingFace平台提供的标准数据加载接口简化了获取流程，支持灵活的数据切片操作。

背景与挑战

背景概述

AutoCOBench数据集作为组合优化问题分类领域的重要资源，由研究团队于Apache 2.0许可下发布，旨在构建自然语言场景与组合优化问题之间的映射桥梁。该数据集整合了5大问题域和43种不同的组合优化问题类型，包含4300个问题场景样本，涵盖了车辆路径规划（VRP）、作业车间调度（SP）、装箱问题（BPP）、图问题（GP）以及背包问题（Knapsack）等多个经典领域。通过提供标准化的数据模板和用户自定义模板，AutoCOBench为研究人员探索组合优化问题的自动建模与求解提供了丰富的实验基础，显著推动了智能优化算法与自然语言处理技术的交叉研究进展。

当前挑战

AutoCOBench数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确识别自然语言描述中隐含的组合优化问题类型仍存在困难，特别是对于复杂场景下多约束条件的语义解析；在构建过程层面，数据集的创建需要平衡问题类型的覆盖广度与样本质量，同时确保不同问题域之间数据模板的统一性与可扩展性。此外，用户自定义模板与标准模板之间的转换机制也增加了数据标注和验证的复杂度，这对数据集的实用性和泛化能力提出了更高要求。

常用场景

经典使用场景

在组合优化领域，AutoCOBench数据集为研究者提供了一个标准化的自然语言到组合优化问题的映射框架。该数据集通过整合车辆路径规划、作业车间调度、装箱问题等5大领域的43种问题类型，成为算法开发和评估的重要基准。其典型应用场景包括测试元启发式算法在多样化问题上的泛化能力，以及验证机器学习模型对组合优化问题的自动分类性能。

实际应用

在物流配送领域，该数据集支持的车辆路径问题变体可直接应用于电商配送路线优化。制造企业可利用其作业车间调度问题模板优化生产排程，而装箱问题模块则为仓储管理提供算法测试基础。金融领域则可通过背包问题变体进行投资组合优化，展现了数据集在工业实践中的广泛适用性。

衍生相关工作

基于AutoCOBench已衍生出多个重要研究方向，包括基于Transformer的组合问题自动分类框架、多任务元学习优化算法等。该数据集启发的典型工作如《MetaHeuristicBench》系统性评估了15种元启发式算法在不同问题类型上的表现，《AutoCOP》则实现了端到端的自然语言到优化模型的转换系统，推动了组合优化与自然语言处理的交叉研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集