CO-Bench

github2025-04-12 更新2025-04-12 收录

下载链接：

https://github.com/sunnweiwei/CO-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CO-Bench是一个用于在组合优化算法搜索中评估语言模型代理的基准数据集。

CO-Bench is a benchmark dataset for language model agents designed for the search of combinatorial optimization algorithms.

创建时间：

2025-04-03

原始信息汇总

CO-Bench数据集概述

数据集基本信息

名称: CO-Bench
类型: 语言模型代理在组合优化算法搜索中的基准测试数据集
论文: CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization
数据地址: CO-Bench

数据下载

下载方式: 使用huggingface_hub库的snapshot_download方法
下载代码示例: python from huggingface_hub import snapshot_download snapshot_download( repo_id=CO-Bench/CO-Bench, repo_type=dataset, local_dir=data )

评估方法

评估代理: 支持GreedyRefine, DirectAnswer, FunSearch, AIDE等代理
评估流程:
1. 加载数据
2. 定义代理
3. 运行迭代评估
4. 获取最终解决方案
评估代码示例: python from agents import GreedyRefine, DirectAnswer, FunSearch, AIDE from evaluation import Evaluator, get_data data = get_data(Aircraft landing, src_dir=data) agent = GreedyRefine( problem_description=data.problem_description, timeout=10, model=openai/o3-mini, ) evaluator = Evaluator(data, timeout=10) for it in range(64): code = agent.step() if code is None: break feedback = evaluator.evaluate(code) agent.feedback(feedback.dev_score, feedback.dev_feedback) code = agent.finalize() feedback = evaluator.evaluate(code) print(feedback.test_feedback)

自定义问题使用

步骤:
1. 包含问题描述和解决模板
2. 定义代理
3. 定义评估函数并运行循环
代码示例: python problem_description = The Traveling Salesman Problem (TSP)... from agents import GreedyRefine, DirectAnswer, FunSearch, AIDE agent = GreedyRefine( problem_description=problem_description, timeout=10, model=openai/o3-mini) evaluate = ... # Define evaluate() to return score (float) and feedback (str) for it in range(64): code = agent.step() dev_score, dev_feedback = evaluate(code) agent.feedback(feedback.dev_score, feedback.dev_feedback) code = agent.finalize() print(code)

引用格式

bibtex @article{Sun2025COBench, title={CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization}, author={Weiwei Sun and Shengyu Feng and Shanda Li and Yiming Yang}, journal={ArXiv}, year={2025}, volume={abs/2504.04310}, url={https://arxiv.org/abs/2504.04310}, }

搜集汇总

数据集介绍

构建方式

在组合优化领域，CO-Bench数据集的构建采用了系统化的方法论。研究团队通过整合多种经典组合优化问题（如旅行商问题、飞机着陆调度等）作为基准测试场景，精心设计了问题描述模板和求解函数框架。数据集构建过程中，团队开发了自动化评估框架，包含开发集和测试集的双重验证机制，并采用迭代式反馈机制来优化智能体表现。数据存储采用标准化结构，通过Hugging Face平台实现高效分发与版本管理。

特点

CO-Bench数据集展现出鲜明的专业特性。其核心价值在于覆盖了组合优化领域的典型问题场景，每个问题都配备严谨的数学描述和可执行的求解模板。数据集采用动态评估体系，支持多种智能体策略（如贪婪优化、直接求解等）的并行测试。特别值得注意的是，该数据集创新性地引入了开发集反馈机制，使得语言模型能够在迭代过程中持续优化解决方案，这种设计显著提升了基准测试的科学性和实用价值。

使用方法

使用CO-Bench数据集需要遵循标准化流程。研究人员首先通过Hugging Face接口获取数据集，随后利用提供的评估框架加载特定问题实例。典型工作流程包含智能体初始化、多轮迭代优化和最终方案验证三个关键阶段。数据集支持自定义问题扩展，用户只需按照规范格式编写问题描述和求解模板即可集成到评估体系。评估过程中，系统会自动执行代码验证和性能测试，并生成包含开发集和测试集得分的详细反馈报告。

背景与挑战

背景概述

CO-Bench数据集由Weiwei Sun、Shengyu Feng、Shanda Li和Yiming Yang等研究人员于2025年提出，旨在为组合优化领域的语言模型智能体提供算法搜索的基准测试平台。该数据集聚焦于组合优化这一经典计算难题，通过系统化评估语言模型在算法生成与优化中的表现，填补了现有研究在智能体交互式学习与反馈机制方面的空白。其创新性体现在将传统优化问题与语言模型相结合，为人工智能在运筹学、自动化算法设计等领域的应用提供了重要参考框架。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，组合优化问题本身具有NP难特性，要求语言模型智能体在有限时间内生成高质量近似解，需平衡探索与开发的矛盾；在构建过程中，需设计通用且可扩展的评估框架以覆盖旅行商问题、飞机着陆调度等异构场景，同时确保代码执行环境的安全隔离与反馈机制的精确量化。此外，如何建立跨问题、跨算法的统一性能度量标准，避免评估偏差，亦是构建过程中的关键难点。

常用场景

经典使用场景

在组合优化算法的研究领域，CO-Bench数据集为评估语言模型代理在算法搜索中的性能提供了标准化测试平台。该数据集通过包含多种经典组合优化问题，如旅行商问题（TSP）和飞机着陆调度问题，为研究人员提供了一个统一的评估框架。语言模型代理能够在该数据集上迭代优化算法，生成并改进解决方案，从而验证其在复杂优化任务中的潜力。

实际应用

在实际应用中，CO-Bench数据集能够支持物流调度、资源分配和路径规划等场景的算法开发。例如，在航空领域，飞机着陆调度问题的高效解决可以显著提升机场运营效率。通过利用该数据集训练的语言模型代理，企业能够快速生成并优化解决方案，降低人工设计算法的成本。这种能力在需要快速响应动态变化的工业场景中尤为重要。

衍生相关工作

CO-Bench数据集已经衍生出多项经典研究，包括基于贪婪细化（Greedy Refinement）和直接回答（Direct Answer）的代理算法。这些工作通过在该数据集上的实验验证了语言模型在组合优化任务中的潜力。此外，数据集还启发了FunSearch和AIDE等新型代理框架的开发，进一步推动了语言模型与优化算法的结合。相关成果已在顶级学术会议和期刊上发表，成为该领域的重要参考文献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集