five

ZhiqiGao/Text2Opt-Bench

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ZhiqiGao/Text2Opt-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
Text2Opt-Bench是一个用于评估大型语言模型在操作研究优化问题(如线性规划、混合整数规划、非线性规划等)上表现的基准数据集,其特点是包含由求解器验证的真实解。该数据集旨在揭示当前大型语言模型在绑定(即将问题描述中的系数、索引和参数具体化)能力上的瓶颈。数据集包含模板生成的问题和非结构化问题,每个问题都有详细的JSON结构描述,包括元数据、实例数据、自然语言描述、参考解决方案等。此外,数据集还提供了正确性标准和评估提示,确保评估的准确性和一致性。

Text2Opt-Bench is a benchmark for evaluating LLMs on operations-research optimization problems (LP, MILP, MIQP, nonlinear) with solver-verified ground truth. It is designed to expose binding as the bottleneck for current LLMs, where binding refers to grounding every coefficient, index, and parameter in the concrete problem data. The dataset includes template-generated problems and unstructured problems, each with detailed JSON schema descriptions covering metadata, instance data, natural-language problem statements, reference solutions, and more. It also provides correctness criteria and evaluation prompts to ensure accurate and consistent assessments.
提供机构:
ZhiqiGao
搜集汇总
数据集介绍
main_image_url
构建方式
Text2Opt-Bench基准测试集由两大评估子集构成:模板化生成集(Template/)与非结构化数据集(Unstructured/)。模板化生成集涵盖11类运筹优化问题(如运输问题、作业车间调度、设施选址等),通过大语言模型生成问题描述文本,并借助模板插入确定性的数值参数,确保物理约束的合理性与问题结构的多样性。非结构化数据集专注于资源分配类线性/混合整数规划问题,将全部数值系数直接嵌入自然语言叙述中,不借助表格或附录,从而模拟真实世界中信息分散的挑战。此外,还提供了针对绑定能力的专项训练语料及大规模压力测试样本,以评估模型在长上下文场景下的表现。
特点
该基准测试的核心创新在于分离并暴露了文本到优化任务中的两个关键能力——建模能力(选择正确的优化结构)与绑定能力(将每个系数、索引和参数对应到具体问题数据)。实验证据表明,绑定能力是当前大语言模型的主要瓶颈。所有问题均配备通过Gurobi求解器验证的黄金标准答案,确保评估结果的可靠性。正确性判定标准严格:返回代码需可执行、达到最优状态且目标值误差在1e-4相对容差内。数据集涵盖线性规划、混合整数线性规划、混合整数二次规划及非线性规划等多种优化类型,问题规模从数十变量到数千变量不等。
使用方法
使用Text2Opt-Bench时,用户需加载问题JSON文件,其中包含元数据、实例数据、自然语言问题描述及参考求解代码。评估采用预设的Pass@1提示模板,要求模型在限定时间内生成可执行的Gurobi Python函数。提示模板引导模型依次分析决策变量、约束条件、目标函数及变量类型,并强制返回包含solve_problem()函数的代码块。评估脚本将自动执行模型输出的代码,并依据执行结果、最优状态及目标值精度进行评判。主评估数据集与GitHub仓库中的评估器无缝集成,用户可直接运行开箱即用的评估流程。
背景与挑战
背景概述
Text2Opt-Bench是一个由SprocketLab研究团队于近期构建的基准测试数据集,旨在评估大语言模型在运筹优化问题上的表现,涵盖线性规划、混合整数线性规划、混合整数二次规划及非线性规划等经典优化范式。该数据集的诞生源于一个核心观察:文本到优化任务要求模型同时具备建模能力(选择正确的优化结构)与绑定能力(将每个系数、索引和参数准确地关联到具体问题数据),而现有模型往往在绑定这一环节遭遇瓶颈。通过提供求解器验证的真值,Text2Opt-Bench为量化LLM在运筹优化领域的实际能力提供了可靠标尺,有望推动面向复杂推理任务的语言模型评测从简单的文本生成向专业化、可验证的方向演进。
当前挑战
Text2Opt-Bench所解决的领域问题在于,大语言模型在处理文本描述的优化问题时,难以将自然语言中的数值与变量准确映射至数学建模框架,常出现索引错乱、参数遗漏或结构误配等绑定错误,导致生成代码无法求解或结果偏离最优解。在数据集构建过程中,研究团队面临两大挑战:一是如何生成涵盖多种约束类型与问题规模(从2变量到48K数据令牌)的合成实例,并确保每个实例的解析解可由Gurobi验证;二是设计统一的评估协议,要求模型返回可执行Python代码且满足误差容限,这对模型输出的规范性和求解器的兼容性提出了严苛要求。
常用场景
经典使用场景
在运筹学与大语言模型交叉研究领域,Text2Opt-Bench被设计为一个高精度基准测试,旨在评估大语言模型将自然语言描述的优化问题自动转化为可执行的Gurobi求解代码的能力。该数据集涵盖了线性规划、混合整数线性规划、混合整数二次规划以及非线性规划等经典问题类型,包括运输问题、设施选址、项目调度、车辆路径规划等工业级场景。其最经典的使用场景是通过模板化生成的实例与非结构化文本实例双轨设计,模型需同时展现建模能力与数据绑定能力,即将问题文本中的数值系数、索引约束精确映射到Python代码中,最终以求解器验证的最优解作为评判标准,衡量模型在端到端优化求解任务上的综合性能。
解决学术问题
该数据集直面当前大型语言模型在数学建模任务中的一个关键瓶颈——数据绑定误差,即模型虽能理解问题结构,但在将具体数字参数准确嵌入代码时频繁出错。通过设计模板化与无结构化两组数据,研究者可以系统性地剖析模型在结构理解与细节锚定两方面的表现差异,为后续模型改进提供细粒度诊断工具。此外,Text2Opt-Bench填补了运筹学优化领域缺乏标准化LLM评估数据集的空白,为自动化求解、智能决策系统等研究方向建立了可复现的参照基准,推动了将深度学习语言理解能力与传统数学优化方法融合的学术探索。
衍生相关工作
基于Text2Opt-Bench数据集,研究社区已衍生出多项重要工作:一是开发了专门的数据绑定能力微调语料库,即Template_train子集,用于训练针对绑定错误修复的专用小模型;二是构建了长上下文压力测试集ruler_samples,用于评估模型处理海量数据输入时的检索与整合表现,延展了LLM在复杂决策支持系统中的适用场景;三是催生了包括模板诱导约束工业变体在内的多类扩展测试场景,如随机规划与多目标优化任务,推动评估维度向不确定性与多准则决策延伸。这些衍生产物共同构筑了一个从能力诊断到机制改进的完整研究闭环。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作