ACCORD
收藏Hugging Face2025-05-29 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/henri24/ACCORD
下载链接
链接失效反馈官方服务:
资源简介:
ACCORD-90k数据集是一个专门为大型语言模型在组合优化中的可行性感知研究设计的数据集。它包含90,000个监督学习实例,涉及六个经典组合优化问题,包括旅行商问题(TSP)、车辆路径问题(VRP)、背包问题、流水线调度、作业车间调度(JSSP)和装箱问题。数据集的每个实例都提供了两种不同的表示形式,以供研究新的架构、提示方法和微调方法。
创建时间:
2025-05-27
原始信息汇总
ACCORD-90k 数据集概述
数据集基本信息
- 名称: ACCORD-90k
- 用途: 研究大型语言模型(LLMs)与组合优化的交叉领域
- 标签: combinatorial-optimization, np-hard, large-language-models, feasibility, scheduling, routing, tsp, vrp, knapsack, bin-packing, jssp, flowshop
- 许可证: MIT
数据集内容
- 实例数量: 超过90,000个监督实例
- 覆盖问题类型:
- 旅行商问题(TSP)
- 车辆路径问题(VRP)
- 背包问题
- 流水车间调度问题
- 作业车间调度问题(JSSP)
- 装箱问题
数据表示方式
-
列表表示(List-of-Lists Representation):
- 传统格式,将解决方案编码为列表
- 不显式强制执行可行性约束
-
ACCORD表示(ACCORD Representation):
- 新颖的自回归格式
- 将解决方案分解为逐步状态转换
- 在每个生成步骤中显式更新和跟踪可行性指标
目录结构
train_data/vrp_tsp_train_data/vrp_tsp_train_data.jsonknapsack_train_data/knapsak_train_data.jsonjssp_train_data/jssp_train_data1.jsonbinpack_train_data/binpack_train_data.jsonfssp_train_data/fssp_train_data.json
数据集分组
调度问题
- 包含数据集: Jssp Train, Fssp Train
- 共同属性:
num_items,num_jobs,output_list_of_lists,input,num_machines,instruction,problem_type,matrix,makespan,output_accord
包装/选择问题
- 包含数据集: Vrp Tsp, Knapsack Train, Jssp Train, Binpack Train, Fssp Train
- 共同属性:
num_items,output_list_of_lists,input,instruction,problem_type,output_accord
路径问题
- 包含数据集: Vrp Tsp
- 共同属性:
num_items,output_list_of_lists,max_interval,num_vehicles,input,demands,time,paired_distances,instruction,num_cities,problem_type,capacity,instance_id,output_accord
详细统计信息
装箱问题 - 按项目数量分布
| 项目数量 | 计数 |
|---|---|
| 5 | 502 |
| 8 | 814 |
| 12 | 1270 |
| 15 | 1473 |
| 20 | 1772 |
| 50 | 2444 |
| 100 | 2485 |
背包问题 - 按项目数量分布
| 项目数量 | 计数 |
|---|---|
| 5 | 1000 |
| 8 | 1000 |
| 10 | 1000 |
| 12 | 1000 |
| 15 | 1000 |
| 20 | 1000 |
| 25 | 1000 |
| 30 | 1000 |
| 50 | 1000 |
| 100 | 1000 |
| 200 | 500 |
流水车间调度问题 - 按作业数量分布
| 作业数量 | 计数 |
|---|---|
| 5 | 1000 |
| 10 | 1000 |
| 20 | 4000 |
| 30 | 2000 |
| 40 | 2000 |
| 50 | 3000 |
| 100 | 1902 |
流水车间调度问题 - 按机器数量分布
| 机器数量 | 计数 |
|---|---|
| 5 | 4000 |
| 10 | 5000 |
| 15 | 3000 |
| 20 | 2902 |
车辆路径/TSP问题 - 按城市数量分布
| 城市数量 | 计数 |
|---|---|
| 5 | 3393 |
| 8 | 3320 |
| 10 | 3341 |
| 12 | 3376 |
| 15 | 3212 |
| 20 | 3423 |
| 50 | 3350 |
| 75 | 3352 |
| 100 | 3224 |
车辆路径/TSP问题 - 按车辆数量分布
| 车辆数量 | 计数 |
|---|---|
| 1 | 15000 |
| 2 | 1630 |
| 3 | 1678 |
| 4 | 1663 |
| 5 | 1707 |
| 6 | 1597 |
| 7 | 1657 |
| 8 | 1702 |
| 9 | 1701 |
| 10 | 1656 |
搜集汇总
数据集介绍

构建方式
在组合优化领域,ACCORD-90k数据集通过系统化方法构建了超过9万个监督实例,涵盖旅行商问题、车辆路径规划、背包问题等六类经典NP难问题。每个实例均包含问题描述与对应解,并创新性地采用双表征体系:传统列表格式便于模型理解,而ACCORD自回归格式则将解构分解为状态转移序列,在生成过程中动态追踪资源约束条件。这种构建方式旨在弥合大语言模型与组合优化问题之间的可行性鸿沟,为算法比较研究提供标准化基准。
使用方法
研究者可通过标准化数据接口加载各子集文件,利用instruction字段的问题描述与output_accord/output_list_of_lists双解形式进行模型训练或评估。针对路径规划问题可调用vrp_tsp子集的城市坐标与车辆容量参数,调度问题则使用jssp/fssp子集的工序矩阵与机器数量属性。实验设计时可对比两种表征下模型的约束满足率与求解质量,或基于状态转移序列开发新型注意力机制。数据集配套的代码库提供了可行性验证工具链,支持端到端的基准测试流程。
背景与挑战
背景概述
组合优化作为运筹学与计算复杂性的交叉领域,长期致力于求解物流调度、资源分配等关键场景中的NP难问题。ACCORD-90k数据集由研究团队于2024年发布,旨在探索大语言模型在组合优化任务中的潜力。该数据集覆盖旅行商问题、车辆路径规划、背包问题等六类经典问题,通过9万余条标注实例构建了双模态表示体系,为自动化求解器研发提供了标准化基准。其创新性地引入自回归约束满足机制,推动了传统算法与生成式人工智能的深度融合。
当前挑战
组合优化问题的核心挑战在于NP难特性导致解空间随规模指数级膨胀,传统启发式算法难以兼顾求解效率与质量。大语言模型直接生成可行解时面临约束满足的瓶颈,常产生违反容量或时序规则的无效结果。数据集构建过程中需平衡问题多样性与时序动态性,例如车辆路径问题需同步建模城市坐标与载重约束,流水车间调度需精确捕捉工序依赖关系。ACCORD表示法的设计需将离散约束转化为可微分的状态转移序列,这对标注一致性与计算可扩展性提出极高要求。
常用场景
经典使用场景
在组合优化研究领域,ACCORD-90k数据集被广泛用于评估大语言模型解决NP难问题的能力。该数据集通过覆盖旅行商问题、车辆路径规划、背包问题等六类经典组合优化任务,为研究者提供了标准化测试平台。其独特的双表征结构——列表式编码与自回归约束跟踪格式——使得模型能够在生成过程中动态维护可行性,显著提升了求解质量与效率。
解决学术问题
该数据集有效应对了组合优化领域的关键挑战:传统方法难以平衡求解效率与约束满足,而大语言模型直接生成可行解的成功率较低。通过引入自回归状态跟踪机制,ACCORD-90k为研究约束感知的序列生成提供了实验基础,推动了神经网络与经典优化理论的交叉融合。这一创新促使学界重新审视大语言模型在复杂决策任务中的潜力,为智能优化算法设计开辟了新路径。
实际应用
ACCORD-90k的实际价值体现在工业调度与物流优化场景中。例如在智能制造领域,企业可基于数据集的作业车间调度实例训练生产排程系统;物流公司则能利用车辆路径问题数据优化配送路线。数据集提供的多尺度问题实例(从5个城市到100个作业任务)确保了算法在不同规模场景下的适用性,为实际工程部署提供了可靠性验证。
数据集最近研究
最新研究方向
在组合优化与大型语言模型融合的前沿领域,ACCORD-90k数据集通过引入可行性感知的自动回归生成机制,为NP难问题的求解开辟了新路径。该数据集涵盖旅行商问题、车辆路径规划、背包问题等经典场景,其独创的双重表示结构——传统列表格式与动态状态跟踪的ACCORD格式,使研究者能够系统性探索语言模型在约束满足与解空间导航中的潜力。当前研究聚焦于如何利用序列生成过程中的实时可行性反馈,提升模型在物流调度、资源分配等实际应用中的泛化能力与求解效率,这一方向正推动组合优化智能求解范式从后验验证向过程引导的深刻转变。
以上内容由遇见数据集搜集并总结生成



