NLCO

github2026-04-16 更新2026-04-17 收录

下载链接：

https://github.com/jing12e/nlco

下载链接

链接失效反馈

官方服务：

资源简介：

NLCO是一个用于端到端推理的基准测试数据集，专注于约束性离散决策问题。模型需要阅读自然语言实例，推断潜在的优化结构，并返回结构化解决方案，该解决方案在可行性、目标质量和效率方面进行评分。

NLCO is a benchmark dataset for end-to-end reasoning focused on constrained discrete decision-making problems. Models are tasked with reading natural language instances, inferring the underlying optimization structures, and returning structured solutions, which are evaluated across three core dimensions: feasibility, objective quality, and efficiency.

创建时间：

2026-04-16

原始信息汇总

NLCO 数据集概述

数据集基本信息

数据集名称: NLCO (Natural-Language Combinatorial Optimization)
核心目标: 评估语言模型能否直接从自然语言描述中解决组合优化问题，而无需编写代码或调用外部求解器。
评估维度: 可行性、目标质量/最优性、效率。
任务数量: 43个组合优化问题。
难度等级: S、M、L。
输入表面形式: NL（自然语言）、JSON、CSV、Markdown Table。
许可证: MIT。

任务覆盖范围

NLCO 数据集涵盖以下主要问题家族及其代表性任务：

家族	代表性任务
路径规划	`TSP`, `CVRP`, `PDP`, `TSPTW`, `MLP`, `PCTSP`, `OP`
调度	`JSP`, `FSP`, `OSP`, `PMS`, `RCPSP`, `SMTWT`
装箱	`BPP`, `KP`, `CSP`, `2SP`, `QKP`
图论	`MIS`, `MVC`, `MCP`, `MAXCUT`, `GCP`, `MDS`
树/网络设计	`STP`, `KMST`, `SFP`, `QSPP`
设施/选址	`UFLP`, `CFLP`, `PMED`, `PCENTER`, `MDP`
分配	`AP3`, `GAP`, `QAP`
集合/覆盖	`SCP`, `SP`, `SPP`, `HSP`, `MkC`
排序/其他离散任务	`LOP`, `CMP`

数据集设计

数据集采用四层分类法组织，便于按结构而非仅按任务名称分析结果：

变量类型: INT、SET、GRAPH。
约束家族: 比较、计数、装箱、图相关及其他结构约束类型。
全局模式: 可重用的全局约束模式。
目标类别: 线性、二次、瓶颈及相关优化形式。

数据生成与评估流程

步骤1：实例创建 - 实例生成、求解和参考标签创建。
步骤2：情境化 - 自然语言情境化和数据集写入。
步骤3：评估 - 模型查询、解析、评分和输出汇总。

数据获取与使用

数据集发布地址: https://huggingface.co/datasets/summer142857jiang/NLCO
原始数据包下载链接: https://drive.google.com/drive/folders/1StvxsrlWw4BVE1YaJW7wWHF7sNdZYpGg?usp=sharing
评估排行榜: https://jing12e.github.io/nlco_eval/
相关论文: https://arxiv.org/pdf/2602.02188

主要发现

根据论文报告：

强大的前沿模型可以在小型实例上实现高可行性和良好的目标质量。
当难度从 S 级增加到 L 级时，性能显著下降。
可靠性在很大程度上取决于问题结构；面向图论和瓶颈式任务仍然比基于集合的任务更难。

引用信息

bibtex @article{jiang2026reasoning, title={Reasoning in a Combinatorial and Constrained World: Benchmarking LLMs on Natural-Language Combinatorial Optimization}, author={Jiang, Xia and Chen, Jing and Zhang, Cong and Gao, Jie and Hu, Chengpeng and Zhang, Chenhao and Wu, Yaoxin and Zhang, Yingqian}, journal={arXiv preprint arXiv:2602.02188}, year={2026} }

搜集汇总

数据集介绍

构建方式

在组合优化领域，NLCO数据集的构建采用了严谨的三阶段流程。首先，通过精确的数学建模与求解器生成多样化的优化问题实例，涵盖旅行商问题、调度任务及装箱问题等经典场景。随后，利用自然语言生成技术将结构化实例转化为多模态表述，支持纯文本、JSON与表格等多种呈现形式。最终，通过系统化评估框架对生成结果进行可行性、目标函数质量及求解效率的多维度验证，确保数据集的科学性与可靠性。

特点

该数据集的核心特征体现在其结构化评估体系与广泛的任务覆盖范围。评估维度不仅关注解的质量，更强调对硬约束的严格遵守，从而精准衡量模型的实际推理能力。数据集囊括了路由规划、资源调度、图论优化等七大问题家族共43类任务，并依据复杂度划分为三个难度层级。独特的四层分类学设计使得分析能够穿透任务表面，深入探究模型在变量类型、约束家族等结构模式上的表现差异。

使用方法

研究者可通过多种途径使用该数据集进行模型评估与比较。对于快速评估，可直接加载已发布的基准文件，利用命令行工具调用主流大语言模型API进行端到端测试。若需定制化生成，可通过配置文件按需重建特定难度层级的任务实例，并支持利用缓存上下文避免重复计算。交互式界面为探索性分析提供了可视化支持，用户能够实时调整参数并观察生成过程。数据集输出采用标准化格式，确保与主流评估框架的无缝对接。

背景与挑战

背景概述

组合优化作为运筹学与计算机科学交叉领域的核心议题，长期以来依赖精确算法与启发式方法求解。随着大语言模型在自然语言理解与推理任务上展现出卓越潜力，评估其直接处理组合优化问题的能力成为新兴研究方向。在此背景下，NLCO数据集应运而生，由Xia Jiang、Jing Chen等研究人员于2026年构建，并计划在ACL 2026 Findings会议上发布。该数据集旨在系统评估语言模型仅依据自然语言描述直接求解组合优化问题的能力，涵盖旅行商问题、车辆路径问题、装箱问题等43类经典任务，通过结构化评估框架检验模型解决方案的可行性、目标质量与效率，为探索大语言模型在约束性离散决策问题上的端到端推理能力提供了标准化基准。

当前挑战

NLCO数据集致力于解决自然语言组合优化这一新兴领域的核心挑战，即要求模型不依赖外部求解器或代码生成，直接从自然语言描述中推断优化结构并生成可行解。这一过程面临多重挑战：模型需同时理解复杂的约束逻辑、变量关系与目标函数，并在离散搜索空间中做出合理决策；不同问题家族（如路由、调度、图论）具有迥异的结构特性，要求模型具备跨领域的泛化推理能力。在数据集构建过程中，挑战同样显著：如何将形式化的组合优化实例转化为多样且自然的语言描述，确保语义准确性与表面形式的多样性；如何设计分层难度体系与四层分类法，以系统化评估模型在不同结构模式上的表现；以及如何整合外部基准库与精确求解器，生成高质量参考解并建立可靠的评估流水线。

常用场景

经典使用场景

在组合优化与自然语言处理的交叉领域，NLCO数据集为评估大型语言模型的端到端推理能力提供了标准化的测试平台。该数据集通过自然语言描述呈现旅行商问题、背包问题、调度问题等43类经典组合优化任务，要求模型直接解析问题结构并生成结构化解决方案，而非依赖外部求解器或代码生成。这种设计使得研究者能够系统性地考察模型在约束满足、目标优化及计算效率等多维度的综合表现，尤其适用于探究模型对离散决策问题的内在理解与推理机制。

实际应用

在实际应用层面，NLCO数据集为开发无需编程接口的智能决策辅助系统提供了关键评估依据。例如，在物流路径规划中，系统可直接理解用户以自然语言描述的配送需求与约束条件，自动生成优化的车辆路线；在生产调度场景下，管理者能够用日常语言描述订单优先级与资源限制，系统则输出可行的排产方案。这种端到端的交互模式降低了优化技术的使用门槛，使得组合优化能力得以嵌入对话式AI、智能客服、自动化报告生成等实际业务系统，促进人工智能在运筹管理领域的平民化应用。

衍生相关工作

围绕NLCO数据集，学术界已衍生出多类经典研究工作。一类聚焦于增强模型的约束感知与符号推理能力，例如通过思维链提示、程序合成或混合神经符号架构来提升解决方案的可行性；另一类探索数据高效的适应方法，如利用数据集的四层分类体系进行元学习或迁移学习，使模型能够快速适应未见过的组合优化问题变体。此外，部分工作将NLCO的评估框架扩展至多模态输入或分布式优化场景，进一步推动了语言模型在复杂决策任务中的泛化性研究。这些衍生工作共同深化了对语言模型结构化推理极限的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集