C^3-Bench Dataset

github2026-02-05 更新2026-02-03 收录

下载链接：

https://github.com/Cardinal-Operations/OPTEngine

下载链接

链接失效反馈

官方服务：

资源简介：

C³-Bench是一个可控和可配置复杂性基准数据集，用于评估模型在经典运筹学问题上的性能。它包含两个互补的子集：1）canonical：包含10种标准运筹学问题类型的实例，复杂性在变量和约束数量等参数上系统增加；2）perturbation：包含对经典基准子集（涵盖库存、TSP和背包问题）应用受控的语言和参数扰动的实例，专门测试模型的鲁棒性和泛化能力。

C³-Bench is a controllable and configurable complexity benchmark dataset for evaluating model performance on classic operations research problems. It comprises two complementary subsets: 1) canonical: This subset includes instances of 10 standard operations research problem types, with complexity systematically increased across parameters such as the number of variables and constraints; 2) perturbation: This subset contains instances that apply controlled linguistic and parametric perturbations to classic benchmark problems covering inventory, TSP, and knapsack problems, specifically designed to test model robustness and generalization capabilities.

创建时间：

2026-01-06

原始信息汇总

OPT-Engine 数据集概述

数据集简介

OPT-Engine 是一个用于优化问题的可扩展基准测试框架，其特点是具有可控的复杂性和可配置的模板。该框架生成了一个名为 C³-Bench 的数据集，旨在通过系统化的复杂度缩放，为自动化问题建模和求解提供一个结构化的测试平台，以评估大语言模型在运筹学问题上的性能。

核心数据集：C³-Bench

C³-Bench 是一个可控与可配置复杂度基准数据集，用于促进可重复研究。数据集可通过以下地址访问：https://github.com/Cardinal-Operations/OPTEngine/tree/main/test_data。

数据集结构

C³-Bench 包含两个互补的子集，用于在受控复杂度下评估模型在经典运筹学问题上的性能：

canonical（标准集）
- 包含10类经典运筹学问题的标准实例。
- 通过变量数量、约束条件数量等参数，系统性地增加问题复杂度。
perturbation（扰动集）
- 包含通过对标准基准的一个子集（涵盖库存、旅行商和背包问题）施加受控的语言和参数扰动而衍生的实例。
- 专门用于测试模型的鲁棒性和泛化能力。
- 扰动在以下三个已知的性能瓶颈维度上引入：
  - 语言复杂度：保持底层数学模型不变，将自然语言描述重新措辞为具有系统性更高句法和词汇复杂度的模板。
  - 目标函数扰动：在目标函数中引入常数项或简单的系数变化。
  - 约束增强：在原始公式中增加一个简单的线性约束。

数据集生成流程

OPT-Engine 框架为给定问题类别生成数据实例的流程如下：

数值实例生成与验证：在指定的目标复杂度范围内采样随机数值实例，并使用精确求解器验证其可行性并计算最优解作为真实值。
标准问题创建：将实例的数值参数映射到结构化、可编辑的模板中，生成规范的自然语言问题描述。
问题增强：使用基于大语言模型的重新表述步骤，改变文本场景和表面措辞，同时严格保留目标函数、约束和所有数值。
完整性验证：通过基于规则的验证检查，确认重新表述的文本保持了原始数值参数及其逻辑关系。

应用与研究发现

基于 C³-Bench 数据集的研究主要探讨两个问题：

当泛化到超出当前基准复杂度水平的分布外优化任务时，大语言模型的性能是否保持稳健？
在当前大语言模型的求解流程中，从问题解释到解决方案生成，哪个阶段遇到最显著的瓶颈？

主要研究发现包括：

工具集成对于扩展至关重要：工具集成推理在所有问题类别中表现出一致的性能趋势，而纯文本推理则随着问题复杂度增加表现出明显的准确性下降。
语义敏感性瓶颈：即使是最先进的大语言模型，在约束的语言表达偏离标准问题描述时，也难以保持建模的保真度。

引用

如果 OPT-Engine 对您的研究有用或相关，请考虑引用我们的论文： bibtex @article{chen2026opt, title={OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling}, author={Chen, Yitian and Cheng, Cheng and Sun, Yinan and Ling, Zi and Ge, Dongdong}, journal={arXiv preprint arXiv:2601.19924}, year={2026} }

联系

有关流程或数据集的任何问题，请在 GitHub 仓库提交问题或通过电子邮件联系作者：

Yitian Chen: chenyitian@shanshu.ai
Cheng Cheng: clairecheng0709@gmail.com

搜集汇总

数据集介绍

构建方式

在运筹学领域，C³-Bench数据集的构建遵循一套严谨的自动化流程。该流程始于数值实例的生成与验证，通过随机采样特定复杂度范围内的参数，并利用Gurobi精确求解器验证实例的可行性及计算最优解作为基准真值。随后，框架将数值参数映射至结构化模板，生成规范的自然语言问题描述。为分离语言变异与数学结构，流程引入基于大语言模型的文本重述步骤，在严格保持目标函数、约束条件及所有数值不变的前提下，对文本场景和表面措辞进行多样化改写。最后，通过大语言模型作为评判者并结合基于规则的验证，使用正则表达式提取以确保改写文本维持原始数值参数及其逻辑关系，若验证失败则重复重述直至产出有效输出。

特点

C³-Bench数据集的核心特点在于其可控且可配置的复杂度设计。数据集划分为两个互补的子集：规范子集系统性地涵盖十类经典运筹学问题，并通过变量与约束数量等参数逐步提升复杂度，为评估模型在不同运筹复杂度下的表现提供了结构化测试平台。扰动子集则针对库存、旅行商和背包问题的子集施加受控的语言及参数扰动，专门用于测试模型的鲁棒性与泛化能力。扰动维度聚焦于三个已知的性能瓶颈：语言复杂度通过提升句法和词汇复杂性增加解析难度；目标扰动通过引入常数项或系数变化测试模型对修改目标的适应能力；约束增强则通过添加简单线性约束检验模型对问题结构增量变化的处理。

使用方法

该数据集旨在促进可重复研究，支持对大语言模型在优化建模中极限能力的深入探索。研究人员可利用规范子集评估模型在系统化复杂度缩放下的问题表述与求解性能，揭示模型随问题复杂性增加的性能变化趋势。扰动子集则专门用于分析模型对语言变异和参数微调的敏感性，帮助识别模型在语义理解与结构适应方面的瓶颈。通过结合工具集成推理与纯文本推理的对比实验，数据集能够系统性地考察模型在分布外任务上的泛化能力，以及从问题解释到解决方案生成全流程中的关键障碍，为自动化问题求解的可靠性研究提供实证基础。

背景与挑战

背景概述

C³-Bench数据集是OPT-Engine框架的产物，由Cardinal-Operations团队于2026年发布，旨在系统评估大语言模型在运筹学优化问题中的建模与求解能力。该数据集聚焦于十个经典运筹问题类别，通过可控的复杂度缩放机制，构建了包含规范实例与扰动实例的双重子集，为研究自动化问题表述与求解提供了结构化测试平台。其核心研究问题在于探究问题复杂度如何影响模型性能，并识别大语言模型在语义理解与数学推理中的瓶颈，对推动智能优化领域的发展具有重要影响力。

当前挑战

C³-Bench数据集所解决的领域挑战在于系统评估大语言模型处理复杂优化问题的能力，特别是在超出当前基准分布的高复杂度任务中的泛化鲁棒性。构建过程中的挑战包括：确保实例在变量与约束数量等参数下的可控复杂度生成；通过基于大语言模型的重述步骤实现语言变异与数学结构的解耦，同时严格保持目标函数与约束的数值完整性；以及设计扰动子集以测试模型在语言复杂性、目标扰动和约束增强等多维度变化下的性能瓶颈。

常用场景

经典使用场景

在运筹学与人工智能交叉领域，C³-Bench数据集为评估大型语言模型在优化问题建模与求解中的能力提供了标准化测试平台。该数据集通过系统化控制问题复杂度，如变量与约束数量，生成了涵盖库存管理、旅行商问题、背包问题等十类经典运筹学问题的实例。研究者可利用其规范子集，精确分析模型在结构化问题上的表现随复杂度变化的趋势，从而揭示模型在数学逻辑理解与公式转化方面的内在局限。

衍生相关工作

基于C³-Bench数据集，研究者已开展多项经典工作，深入探索了工具集成推理与纯文本推理在复杂优化任务中的效能差异。相关研究揭示了语义敏感性瓶颈的存在，即模型在约束语言表述偏离规范形式时容易出现公式保真度下降。这些工作进一步催生了针对优化问题语义理解增强、混合推理框架设计以及跨复杂度泛化能力提升的新方法，推动了智能运筹求解技术的迭代发展。

数据集最近研究