C^3-Bench Dataset
收藏OPT-Engine 数据集概述
数据集简介
OPT-Engine 是一个用于优化问题的可扩展基准测试框架,其特点是具有可控的复杂性和可配置的模板。该框架生成了一个名为 C³-Bench 的数据集,旨在通过系统化的复杂度缩放,为自动化问题建模和求解提供一个结构化的测试平台,以评估大语言模型在运筹学问题上的性能。
核心数据集:C³-Bench
C³-Bench 是一个可控与可配置复杂度基准数据集,用于促进可重复研究。数据集可通过以下地址访问:https://github.com/Cardinal-Operations/OPTEngine/tree/main/test_data。
数据集结构
C³-Bench 包含两个互补的子集,用于在受控复杂度下评估模型在经典运筹学问题上的性能:
-
canonical(标准集)
- 包含10类经典运筹学问题的标准实例。
- 通过变量数量、约束条件数量等参数,系统性地增加问题复杂度。
-
perturbation(扰动集)
- 包含通过对标准基准的一个子集(涵盖库存、旅行商和背包问题)施加受控的语言和参数扰动而衍生的实例。
- 专门用于测试模型的鲁棒性和泛化能力。
- 扰动在以下三个已知的性能瓶颈维度上引入:
- 语言复杂度:保持底层数学模型不变,将自然语言描述重新措辞为具有系统性更高句法和词汇复杂度的模板。
- 目标函数扰动:在目标函数中引入常数项或简单的系数变化。
- 约束增强:在原始公式中增加一个简单的线性约束。
数据集生成流程
OPT-Engine 框架为给定问题类别生成数据实例的流程如下:
- 数值实例生成与验证:在指定的目标复杂度范围内采样随机数值实例,并使用精确求解器验证其可行性并计算最优解作为真实值。
- 标准问题创建:将实例的数值参数映射到结构化、可编辑的模板中,生成规范的自然语言问题描述。
- 问题增强:使用基于大语言模型的重新表述步骤,改变文本场景和表面措辞,同时严格保留目标函数、约束和所有数值。
- 完整性验证:通过基于规则的验证检查,确认重新表述的文本保持了原始数值参数及其逻辑关系。
应用与研究发现
基于 C³-Bench 数据集的研究主要探讨两个问题:
- 当泛化到超出当前基准复杂度水平的分布外优化任务时,大语言模型的性能是否保持稳健?
- 在当前大语言模型的求解流程中,从问题解释到解决方案生成,哪个阶段遇到最显著的瓶颈?
主要研究发现包括:
- 工具集成对于扩展至关重要:工具集成推理在所有问题类别中表现出一致的性能趋势,而纯文本推理则随着问题复杂度增加表现出明显的准确性下降。
- 语义敏感性瓶颈:即使是最先进的大语言模型,在约束的语言表达偏离标准问题描述时,也难以保持建模的保真度。
引用
如果 OPT-Engine 对您的研究有用或相关,请考虑引用我们的论文: bibtex @article{chen2026opt, title={OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling}, author={Chen, Yitian and Cheng, Cheng and Sun, Yinan and Ling, Zi and Ge, Dongdong}, journal={arXiv preprint arXiv:2601.19924}, year={2026} }
联系
有关流程或数据集的任何问题,请在 GitHub 仓库提交问题或通过电子邮件联系作者:
- Yitian Chen: chenyitian@shanshu.ai
- Cheng Cheng: clairecheng0709@gmail.com




