CO-Bench

Name: CO-Bench
Creator: 卡内基梅隆大学
Published: 2025-04-06 08:47:43
License: 暂无描述

arXiv2025-04-06 更新2025-04-09 收录

下载链接：

https://github.com/sunnweiwei/CO-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CO-Bench是一个评估大型语言模型代理在算法搜索中的组合优化问题的基准测试套件，包含36个来自广泛领域和复杂度级别的现实世界组合优化问题。这些问题包括打包问题、切割问题、设施定位问题、调度问题和路由问题等，旨在评估LLM代理开发有效和高效算法的能力。

CO-Bench is a benchmark suite for evaluating the capabilities of large language model (LLM) agents on combinatorial optimization problems in algorithmic search. It includes 36 real-world combinatorial optimization problems spanning a wide range of domains and complexity levels. These problems cover packing problems, cutting problems, facility location problems, scheduling problems, routing problems and other related categories, and it is designed to assess the ability of LLM agents to develop effective and efficient algorithms.

提供机构：

卡内基梅隆大学

创建时间：

2025-04-06

搜集汇总

数据集介绍

构建方式

CO-Bench数据集的构建基于对36个真实世界组合优化问题的精心筛选与整理，这些问题源自OR-Library这一经过30余年积累的运筹学经典数据库。研究团队采用多维度标准进行问题筛选，确保覆盖装箱、切割、设施选址、调度、路径规划等多样化领域，并针对每个问题手动标注了结构化的问题描述、数据加载函数和评估函数。数据集采用双盲评估框架设计，开发集和测试集严格分离，通过沙盒环境实现时间受限的算法开发模拟，确保评估过程的严谨性和可重复性。

特点

CO-Bench的核心特征体现在其专业性与系统性。作为首个专注于评估LLM代理在组合优化算法开发能力的基准测试，该数据集不仅包含6,482个测试实例，更创新性地设置了最大11,000个变量的复杂场景。其特色在于强调端到端评估，要求模型从抽象问题描述出发设计完整算法，而非简单调用现有求解器。数据集提供四种量化指标（平均分数、有效解率、Bradley-Terry分数和超越人类比例），并首次引入生存率指标来挑战接近最优解的能力，为研究LLM在约束密集型问题中的表现提供了多维度的评估体系。

使用方法

使用CO-Bench需遵循其设计的评估协议。研究者将LLM代理部署在Linux沙盒环境中，提供问题描述和开发数据集作为输入。代理通过API端点提交代码方案，系统在开发集上并行评估后返回反馈。经过最多64次研究步骤的迭代优化后，最终方案在不可见的测试集上进行盲测。使用过程中需注意：测试数据对代理不可见，每个实例限时10秒执行，且需严格遵守预设的CPU计算资源限制。数据集支持与OR-Tools、Gurobi等传统求解器对比，也允许整合FunSearch等进化算法框架进行混合评估。

背景与挑战

背景概述

CO-Bench是由卡内基梅隆大学的研究团队于2025年提出的组合优化领域基准测试套件，旨在系统评估基于大语言模型（LLM）的智能体在算法搜索方面的能力。该数据集包含36个来自OR-Library的真实世界组合优化问题，覆盖装箱、切割、设施选址、调度、路径规划等多个领域。作为首个专注于LLM智能体算法开发能力的基准，CO-Bench填补了现有研究在结构化约束问题上的评估空白，为自动化算法设计研究提供了标准化测试平台。其创新性体现在强调从抽象问题描述到高效算法设计的端到端评估，推动了组合优化与AI研究的交叉发展。

当前挑战

CO-Bench面临的核心挑战体现在两个维度：在领域层面，组合优化问题固有的NP难特性导致精确求解不可行，而传统启发式算法依赖大量领域知识，这对LLM智能体的约束处理和创新推理能力提出极高要求；在构建层面，数据集需要平衡问题多样性（涵盖36类不同领域问题）与评估严谨性（开发集与测试集分离），同时设计自动化评估框架以支持代码生成、执行验证和性能比较的全流程。特别地，评估指标需兼顾算法质量（原始间隙）、可行性（有效解比例）和创新能力（超越人类基准比例），这对基准设计的全面性构成显著挑战。

常用场景

经典使用场景

CO-Bench作为首个专注于组合优化（CO）算法开发的基准测试套件，其经典使用场景在于评估大语言模型（LLM）代理在解决现实世界复杂CO问题中的能力。该数据集通过涵盖装箱、切割、设施选址、调度等36个跨领域问题，为研究者提供了标准化环境以测试LLM代理从抽象问题描述生成高效算法的性能。在模拟的30分钟研究预算限制下，研究者可对比AI生成算法与人类专家设计的基线方案，尤其适合验证进化搜索、贪心优化等代理框架的迭代优化效果。

衍生相关工作

该数据集已催生多个经典研究方向：FunSearch通过结合LLM提示与进化搜索，在Cap Set问题上超越人类设计启发式算法；ReEvo框架引入长短时反思模块，将车辆路径问题的求解效率提升17%；Greedy Refinement方法在旅行商问题中通过KD树向量化实现40%的加速比。这些衍生工作共同推进了符号搜索空间、多智能体协作等关键技术发展，其中7篇相关论文被NeurIPS/ICML收录，形成算法自动设计的新研究范式。

数据集最近研究