OPT-BENCH

Name: OPT-BENCH
Creator: 同济大学, 上海人工智能实验室, 南京大学, 浙江大学
Published: 2025-06-12 22:46:41
License: 暂无描述

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://github.com/OliverLeeXZ/OPT-BENCH

下载链接

链接失效反馈

官方服务：

资源简介：

OPT-BENCH是一个全面的基准数据集，旨在评估大型语言模型（LLM）在大型搜索空间优化问题上的性能。它包括来自Kaggle的20个真实世界机器学习任务和10个经典的NP完全或NP难组合优化问题。这些任务涵盖了回归、分类等预测领域，以及图着色、汉密尔顿回路等组合复杂性计算挑战。OPT-BENCH还引入了OPT-Agent，一个端到端的优化框架，它通过生成、验证和迭代改进解决方案来模拟人类的推理过程。该数据集为LLM在机器学习和组合域中的迭代优化和推理研究提供了强大的平台。

OPT-BENCH is a comprehensive benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) on large search-space optimization problems. It includes 20 real-world machine learning tasks sourced from Kaggle and 10 classic NP-complete or NP-hard combinatorial optimization problems. These tasks cover prediction domains such as regression and classification, as well as combinatorial computational challenges including graph coloring, Hamiltonian circuits, and others. OPT-BENCH also introduces OPT-Agent, an end-to-end optimization framework that simulates human reasoning processes by generating, validating, and iteratively improving solutions. This dataset provides a robust platform for research on iterative optimization and reasoning of LLMs in both machine learning and combinatorial domains.

提供机构：

同济大学, 上海人工智能实验室, 南京大学, 浙江大学

创建时间：

2025-06-12

原始信息汇总

OPT-BENCH 数据集概述

数据集简介

名称: OPT-BENCH
类型: 大型语言模型（LLM）评估基准
目的: 评估LLM在具有大搜索空间的问题上的解决能力，以及通过历史反馈改进解决方案的能力

数据集内容

任务类型:
- 20个机器学习任务
- 10个NP问题
评估重点:
- 模型通过历史反馈改进解决方案的能力
- 迭代推理和认知能力提升

数据集特点

OPT-Agent框架: 端到端自动评估框架，支持LLM从历史反馈中学习
实验范围: 涵盖6个不同模型家族的9个最先进LLM
问题规模: 专门设计用于评估大规模搜索空间问题的解决能力

数据集统计

包含详细的任务案例和数据分析（具体统计图表见原始页面）

使用方式

环境准备

Python版本要求: ≥3.10
安装依赖: pip install -r requirements.txt

推理示例

API模型: bash export API_KEY="Your api key" export BASE_URL="Your api URL"
开源模型: bash export API_KEY=EMPTY export BASE_URL="Your model URL"

任务运行

机器学习任务: bash cd OPT-BENCH python run_exp.py --data_dir OPTAgent/example_tasks/spaceship-titanic --steps 1 --base_model gpt-4o-2024-08-06
NP问题: bash python run_exp.py --data_dir OPTAgent/example_tasks/hamiltonian-cycle --task_field NP --steps <your steps default is 10> --base_model <your model default is 4o>

任务扩展

数据准备: 在OPTAgent/example_tasks目录中添加数据
任务描述: 需包含Description、Metric和Submission Format部分
验证脚本: 需准备validation.py进行规则验证

相关资源

论文: Arxiv: OPT-BENCH
项目页面: GitHub
数据集: Hugging Face

搜集汇总

数据集介绍

构建方式

OPT-BENCH数据集的构建过程体现了严谨的科学方法论与多源异构数据的融合策略。研究团队从Kaggle竞赛平台精选了20个具有代表性的机器学习任务，涵盖回归、分类等典型预测场景，同时纳入了10个经典NP难问题作为组合优化基准。针对机器学习任务，采用GPT-4o进行初始任务描述生成后，由领域专家进行双重校验，确保问题定义的精确性；NP问题则通过结构化JSON文件封装五个独立实例，并配备基于规则的验证脚本。数据集创新性地集成了由AIDE框架生成的初始解决方案，并经过四名博士级专家的多轮优化，形成了兼具基准性与可拓展性的评估体系。

特点

该数据集的核心价值在于其多维度的评估视角与真实场景的紧密耦合。30个任务覆盖机器学习工程和组合优化两大领域，其中Kaggle竞赛数据保留了原始评估指标和提交格式，确保与现实应用场景的一致性；NP问题则通过哈密顿回路、旅行商问题等经典计算难题，检验模型在组合爆炸空间中的搜索能力。独特之处在于每个任务都配备动态验证机制——ML任务采用kaggle标准测试集评估，NP问题通过自动化验证脚本实时检测解决方案的合规性。数据集还创新性地记录了优化轨迹历史，为研究迭代式推理提供了丰富的行为数据。

使用方法

使用该数据集需遵循端到端的评估框架OPT-Agent，其工作流模拟人类认知的迭代优化过程。研究者首先通过'draft'动作生成初始解决方案（ML任务输出Python脚本，NP问题生成具体答案），随后进入'improve-debug'循环：验证通过的方案触发超参数调整或算法优化，错误方案则进入基于历史反馈的调试阶段。评估时需关注四大核心指标：包含历史上下文的胜率(Win Count)、无效方案比例(Buggy Rate)、模型相对排名(Rank)以及改进率(IR)。温度参数需设置为0.2-0.5区间以平衡探索与开发，建议优化步长控制在10-20步以获得显著收敛。所有任务均需通过标准化验证脚本确保结果可比性。

背景与挑战

背景概述

OPT-BENCH是由上海人工智能实验室、同济大学等机构的研究团队于2025年提出的一个综合性基准测试数据集，旨在评估大型语言模型（LLMs）在大规模搜索空间优化问题上的表现。该数据集包含20个来自Kaggle的真实世界机器学习任务和10个经典NP问题，涵盖了预测建模和组合优化两大领域。OPT-BENCH的创建标志着对LLMs迭代推理和持续优化能力系统评估的开端，弥补了现有基准测试在动态反馈和长期适应评估方面的不足。该数据集通过模拟人类从历史反馈中学习的过程，为研究LLMs在复杂问题求解中的认知能力提供了标准化平台，对推动AI在自动机器学习（AutoML）和组合优化领域的发展具有重要意义。

当前挑战

OPT-BENCH面临的核心挑战体现在两个维度：在领域问题层面，需要解决LLMs在组合优化问题中难以持续利用历史反馈的局限性，如NP问题中模型无法像人类那样基于错误逐步修正解决方案；同时要克服现有基准测试对单次推理评估的偏重，缺乏对长期迭代优化能力的测量标准。在构建技术层面，主要挑战包括：1）保持Kaggle竞赛任务与原始评估指标的一致性，同时适配自动化评估框架；2）为NP问题设计精确的规则验证系统以检测解决方案的有效性；3）处理迭代过程中上下文窗口膨胀导致的计算效率问题；4）平衡不同领域任务（如回归与组合优化）的评估指标可比性。这些挑战使得数据集构建需要兼顾算法复杂性和工程实现的严谨性。

常用场景

经典使用场景

在人工智能领域，大规模语言模型（LLMs）的优化能力评估一直是一个重要的研究方向。OPT-BENCH数据集通过整合20个来自Kaggle的真实世界机器学习任务和10个经典的NP问题，为研究者提供了一个全面评估LLMs在复杂搜索空间优化问题上的能力平台。该数据集特别适用于评估模型在迭代推理和解决方案优化方面的表现，为LLMs的优化能力提供了标准化的测试环境。

实际应用

在实际应用中，OPT-BENCH数据集可以用于开发和测试各种基于LLMs的优化代理。例如，在自动化机器学习（AutoML）领域，研究者可以利用该数据集来评估和优化模型在特征工程、超参数调整等方面的表现。此外，该数据集还可以用于评估模型在组合优化问题（如旅行商问题、图着色问题等）上的表现，为实际应用中的资源分配、调度优化等问题提供参考。

衍生相关工作

OPT-BENCH数据集的推出催生了一系列相关研究工作，特别是在LLMs的优化和迭代推理领域。例如，基于该数据集的研究工作提出了OPT-Agent框架，该框架通过模拟人类的推理行为，实现了对LLMs在复杂优化问题上的系统性评估。此外，该数据集还激发了更多关于LLMs在动态反馈和长期优化能力方面的研究，为后续的模型改进和应用开发提供了重要的理论基础和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集