OptiVerse

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/Waichenbxx/OptiVerse

下载链接

链接失效反馈

官方服务：

资源简介：

OptiVerse是一个包含1,000个精心策划的优化问题的综合性基准测试，涵盖六个不同的领域：数学规划（MP）、组合优化（CO）、随机优化（SO）、动态优化（DO）、最优控制（OC）和游戏优化（GO）。数据集分为三个难度级别：简单（300个问题）、中等（400个问题）和困难（300个问题）。数据来源于权威的学术资源，经过严格的五阶段流程整理和验证。

OptiVerse is a comprehensive benchmark dataset containing 1,000 carefully curated optimization problems covering six distinct domains: Mathematical Programming (MP), Combinatorial Optimization (CO), Stochastic Optimization (SO), Dynamic Optimization (DO), Optimal Control (OC), and Game Optimization (GO). The dataset is divided into three difficulty levels: Easy (300 problems), Medium (400 problems), and Hard (300 problems). The data is sourced from authoritative academic resources and has been organized and validated through a rigorous five-stage workflow.

创建时间：

2026-05-08

原始信息汇总

数据集概述

OptiVerse 是一个面向优化问题求解的综合基准数据集，已被 ACL 2026 Findings 接收。

核心信息

数据集规模：包含 1,000 个精心筛选的优化问题。
覆盖领域：涵盖六个不同的优化领域：
- 数学规划 (Mathematical Programming, MP)
- 组合优化 (Combinatorial Optimization, CO)
- 随机优化 (Stochastic Optimization, SO)
- 动态优化 (Dynamic Optimization, DO)
- 最优控制 (Optimal Control, OC)
- 博弈优化 (Game Optimization, GO)
难度级别：分为三个级别：
- 简单 (Easy)：300 个问题
- 中等 (Medium)：400 个问题
- 困难 (Hard)：300 个问题
答案形式：向量 (Vector)

数据构建

数据来源：来自 82 本权威教材、研究生入学考试及应用建模案例（共 26,702 页）。
处理流程：通过五阶段管道构建：
1. 获取：从原始语料中收集。
2. 标准化：使用 MinerU2.5 框架提取表格和图形数据。
3. 验证与翻译：由运筹学领域专家（博士和硕士研究生）审核和翻译，确保技术精确性和数学符号正确。
4. 质量过滤：严格排除可通过网络搜索直接获得答案的问题，以减少数据污染风险。
5. 分类：按 6 个领域和 3 个难度级别组织为二维分类体系。

评估框架

采用两阶段的 LLM-as-a-Judge 评估方法：

第一阶段：答案提取：通过结构合成提示解析原始执行日志和非结构化中间输出，提取为干净的 JSON 对象。
第二阶段：答案验证：评判模型根据三个严格标准进行评估：
- 完整性与精度：数值误差相对容忍度为 ≤ 0.1%。
- 语义灵活性：智能处理单位变化（如 "0.5" 与 "50%") 并评估非数值策略的语义等价性。
- 推理优先验证：在给出最终 is_correct 布尔判决前，先生成逐步验证日志。

关键发现

显著的难度敏感性：所有 LLM 在任务难度提升时性能急剧下降。顶级模型如 GPT-5.2 和 Gemini-3-Pro 在困难问题上准确率不足 27%。
推理链的优势：具备显式推理能力的模型（如 Qwen3-Thinking、DeepSeek-Reasoner）显著优于标准指令微调版本。
特定领域脆弱性：模型缺乏跨领域鲁棒性，在最优控制和动态优化等未被充分研究的类别中成功率远低于常见任务。
建模是主要瓶颈：细粒度错误分析表明，建模与逻辑错误是主要瓶颈，即使代码执行成功，也常表现为无声的语义差异。

许可证

该项目采用 MIT 许可证。

搜集汇总

数据集介绍

构建方式

OptiVerse数据集构建于一项严谨而系统的工程之上，旨在为优化问题求解领域提供一个全面且具挑战性的评测基准。其构建流程始于从82本权威教科书、研究生入学考试及实际建模案例等共计26,702页的原始语料中广泛采集优化问题。随后，借助MinerU2.5框架对文本、复杂表格及图形数据进行精准提取与标准化处理。为确保技术精确性与数学符号的正确性，所有语料均经过运筹学领域的博士与硕士研究生进行严格评审与翻译。为规避数据污染风险，质量过滤阶段严格剔除了可通过网络搜索轻易获取解决方案的问题。最终，数据依据六个优化领域与三个难度等级被组织成一个二维分类体系，形成了包含1,000个精心筛选题目的高质量数据集。

特点

OptiVerse数据集的核心特质在于其多维度的全面性与挑战性。它跨越了数学规划、组合优化、随机优化、动态优化、最优控制及博弈优化六个迥异的领域，覆盖了传统基准测试中常被忽视的类别。数据集内的每个问题不仅包含文本描述，还整合了表格与图形信息，并以向量形式而非单一标量作为答案，这要求模型具备更深入的理解与复杂输出能力。题目被清晰地划分为简单、中等、困难三个梯度，旨在精细衡量模型性能。尤为突出的是，该数据集采用了一种创新的‘大语言模型作为裁判’（LLM-as-a-Judge）两阶段评估框架，通过严格的数值容差（相对误差≤0.1%）、语义灵活性处理及逐步推理验证，确保了评估的准确性与鲁棒性。

使用方法

使用OptiVerse数据集首先需克隆其GitHub仓库并安装必要的依赖环境，包括如Gurobi等商业求解器的许可。进行推理时，用户需设定API密钥，并通过运行`run_inference.py`脚本，指定输入数据文件、输出目录及模型名称与API地址，以生成建模代码并在沙箱环境中执行。执行完毕后，通过调用`evaluate.py`脚本对输出结果进行评估，该脚本内置了‘大语言模型作为裁判’方法，能自动解析执行日志，依据预定义的严格标准与真实答案进行比对，最终输出正确的判定结果。这一流程为在统一框架下系统性地评估各类大语言模型在复杂优化任务上的表现提供了完整路径。

背景与挑战

背景概述

优化问题在运筹学、工业工程与人工智能的交汇处占据核心地位，其解决能力是衡量智能系统决策水平的关键标尺。尽管大语言模型在逻辑推理领域崭露头角，但面对复杂优化任务时仍步履蹒跚，既有基准如ComplexOR、MAMO等仅聚焦于数学规划和组合优化，忽视了大量实际应用中不可或缺的优化范式。为填补这一空白，由中国学者张新宇、张博轩等组成的团队于2026年在ACL会议上提出了OptiVerse基准，该基准精心遴选了1000道涵盖数学规划、组合优化、随机优化、动态优化、最优控制与博弈优化六大领域的难题，并依据难度划分为三个层级。实验结果揭示，即便是GPT-5.2与Gemini-3-Pro等顶尖模型在处理高难度问题时准确率也未能突破30%，彰显了该基准对当前模型能力的严峻考验，也为评估智能化化求解能力提供了更为全面与严苛的试金石。

当前挑战

OptiVerse所揭示的核心挑战在于大语言模型在处理复杂优化问题时展现出的普遍脆弱性。领域层面，模型在随机优化、动态优化等非传统领域上的表现远逊于经典的数学规划与组合优化，暴露了其跨域鲁棒性的匮乏；难度层面，从简单到困难任务的性能断崖式下滑表明模型缺乏应对复杂约束与多层次决策的泛化能力。构建过程中，团队面临着从82本权威教材、2.6万余页素材中精准提取并标准化表格与图形信息的艰巨任务，还需由运筹学专家严格验证数学符号的准确性，并通过网络搜索过滤措施消除数据污染风险。此外，模型输出的建模与逻辑错误成为性能瓶颈，即便是代码执行成功的情形下，隐含的语义偏差仍难以被传统检查器捕获，这催生了双重视角审计智能体的设计，旨在通过语义三角测量技术主动识别并修复这些细微瑕疵。

常用场景

经典使用场景

在运筹学与人工智能的交叉领域，OptiVerse被设计为评估大语言模型（LLM）求解复杂优化问题的基准。其经典使用场景涵盖六大优化范式——数学规划、组合优化、随机优化、动态优化、最优控制与博弈优化——要求模型不仅理解问题描述，还需自主识别优化范式并调用gurobi、scipy等求解器编写可执行代码。该基准包含1000道精心筛选的题目，按难度分为三级，且输出形式为向量而非标量，对模型的建模能力和代码生成能力构成严峻挑战。通过统一的LLM-as-a-Judge评估框架，研究者能够系统性地量化LLM在跨领域优化任务中的推理表现。

解决学术问题

OptiVerse主要解决了现有优化基准覆盖面狭窄的学术瓶颈。此前如ComplexOR和NLP4LP仅涉及数学规划与组合优化，忽略了随机优化、动态优化、最优控制及博弈优化等关键领域。该数据集揭示了LLM在硬难度题目上性能急剧衰退的现象——即便顶尖模型GPT-5.2与Gemini-3-Pro准确率仍不足27%，证实了建模与逻辑错误是核心瓶颈。其关键发现（如推理链模型的显著优势、跨域鲁棒性缺失）为后续研究指明了方向，推动了语义三角验证等新评估范式的诞生。

衍生相关工作

基于OptiVerse已衍生了多项重要工作。其一为Dual-View Auditor Agent（DVA-Agent），通过需求提取、盲代码抽象与交叉引用分析三阶段发现建模中的语义差异，显著提升了代码生成的可靠性。其二为LLM-as-a-Judge评估范式，包含结构合成提取与严格数学助教审核两阶段，为结构化输出的自动评估设立了新标准。此外，该数据集对22个LLM的横向对比为开源思考模型（如Qwen3-Thinking、DeepSeek-Reasoner）的改进提供了基准参考，也催生了针对建模瓶颈的专项优化研究，推动了优化问题求解领域的系统性进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集