CooperBench

github2026-02-02 更新2026-02-03 收录

下载链接：

https://github.com/cooperbench/CooperBench

下载链接

链接失效反馈

官方服务：

资源简介：

CooperBench是第一个旨在衡量AI代理在处理具有潜在冲突的个体任务时合作能力的基准测试。我们发现，在相同总工作量的情况下，协调代理的表现比单个代理差得多。这种协调缺陷是部署可以与人类或其他代理一起工作的AI系统的一个基本障碍。

CooperBench is the first benchmark designed to assess the cooperative abilities of AI Agents when handling individual tasks with potential conflicts. We found that under the same total workload, coordinated agents perform considerably worse than individual agents. Such coordination deficits constitute a fundamental barrier to deploying AI systems that can collaborate with humans or other agents.

创建时间：

2026-01-18

原始信息汇总

CooperBench 数据集概述

数据集基本信息

数据集名称：CooperBench
核心目标：首个用于衡量AI代理在处理具有潜在冲突的独立任务时合作能力的基准。
关键发现：在相同总工作量下，协调代理的表现远差于单个代理。这种协调缺陷构成了部署能与人类或其他代理协同工作的AI系统的基本障碍。
许可证：MIT

数据集获取与结构

下载地址：https://huggingface.co/datasets/cooperbench/cooperbench
下载命令：git clone https://huggingface.co/datasets/cooperbench/cooperbench dataset/
数据结构：

dataset/ <repo_name>/ task<id>/ setup.sh # 仓库设置脚本 run_tests.sh # 测试运行脚本 feature1/ feature.md # 功能描述 feature.patch # 黄金实现 tests.patch # 测试用例 feature2/ ...

数据集规模与内容

任务数量：652
仓库数量：12
涉及语言：Python, TypeScript, Go, Rust

实验设置

设置	代理数量	描述
`coop`	2	两个代理通过Redis消息传递进行协作，每个代理处理一个功能。
`solo`	1	单个代理按顺序处理两个功能。

关键研究发现

协作性能下降：GPT-5和Claude Sonnet 4.5在双代理协作模式下成功率仅为25%，比单个代理处理两项任务时低约50%。
通信的作用：代理将高达20%的预算用于通信，这减少了合并冲突，但并未提高整体成功率。
协调失败的三大能力缺口：
- 预期失败 (42%)：代理未能整合伙伴的状态信息。
- 通信失败 (26%)：问题未得到回答，导致决策循环中断。
- 承诺失败 (32%)：代理违背承诺或做出无法验证的声明。

输出结构

实验结果保存在 logs/ 目录下：

logs/<run_name>/<repo>/task<id>/features_<i>_<j>/ agent1/ trajectory.json # 完整代理轨迹 patch.diff # 生成的补丁 agent2/ ... eval.json # 评估结果

相关资源

论文地址：https://arxiv.org/abs/2601.13295
项目网站：https://cooperbench.com
PyPI包：https://pypi.org/project/cooperbench/

搜集汇总

数据集介绍

构建方式

在人工智能协作研究领域，CooperBench 的构建过程体现了严谨的工程与学术规范。该数据集源自对现实软件开发场景的抽象，通过从12个开源代码仓库中精心筛选出652个独立任务，覆盖了Python、TypeScript、Go和Rust等多种编程语言。每个任务均被结构化为包含两个潜在冲突的功能特性，并配备了完整的初始代码库、功能描述文档、标准实现补丁以及自动化测试脚本。这种构建方式旨在模拟多智能体协作编码时面临的真实挑战，为评估智能体在并行处理相互关联任务时的协调能力提供了标准化且可复现的实验基础。

特点

CooperBench 的核心特点在于其首创性地专注于衡量人工智能智能体在协作场景下的性能表现。与传统的单智能体基准测试不同，该数据集专门设计了需要协调与沟通的任务对，以暴露智能体在团队合作中可能出现的期望不一致、通信失效与承诺违背等深层能力缺陷。数据集结构清晰，每个任务均包含独立的特性描述、参考实现和测试用例，便于进行对照实验。其丰富的元数据与详尽的执行轨迹记录，使得研究者能够深入分析协作失败的具体原因与模式，为理解多智能体系统的协同瓶颈提供了宝贵的实证数据。

使用方法

研究者可通过安装专用的Python库并配置相应的执行后端来使用CooperBench。该框架提供了命令行工具与Python API两种交互方式，支持用户灵活地选择合作模式或单智能体模式运行实验。在合作模式下，两个智能体通过Redis进行通信，各自负责一个功能特性的实现；而在单智能体模式下，则由一个智能体顺序处理全部任务。用户只需指定实验名称、目标代码仓库、大语言模型及运行设置，即可启动基准测试。实验结束后，系统会生成包含完整执行轨迹与评估结果的详细日志，用户可利用内置的评估命令对智能体生成的代码补丁进行自动化验证与性能分析。

背景与挑战

背景概述

在人工智能迈向通用智能体的发展进程中，多智能体协作能力被视为实现复杂任务分解与高效执行的关键。CooperBench 数据集于 2026 年由斯坦福大学与 SAP 实验室的研究团队联合创建，旨在系统评估人工智能智能体在面临潜在冲突的独立任务中协同工作的效能。该数据集聚焦于编码任务场景，核心研究问题是探究智能体能否像人类团队成员一样进行有效协作，其发现揭示了当前先进模型在协调合作上存在显著缺陷，为 AI 智能体系统在真实人机协同或群体智能环境中的部署提供了重要的基准与理论依据。

当前挑战

CooperBench 所针对的领域挑战在于多智能体协作中的效能评估与瓶颈诊断。具体而言，其旨在解决智能体在并行处理具有相互依赖或冲突的子任务时，因沟通、状态同步与承诺履行等环节失效而导致的整体性能下降问题。在数据集构建过程中，挑战主要源于如何设计具有真实冲突场景的多样化编程任务，覆盖多种编程语言与代码库，并建立能够精确量化协作失败模式（如期望失败、沟通失败、承诺失败）的评估框架，以确保基准的严谨性与泛化能力。

常用场景

经典使用场景

在人工智能协作研究领域，CooperBench作为首个专注于评估多智能体协同处理潜在冲突性任务的基准测试，其经典使用场景在于系统性地衡量不同大型语言模型在代码生成任务中的协作效能。研究者通过设定合作与独立两种实验模式，对比智能体在共享工作负载下的表现差异，从而揭示协同机制中的固有缺陷。该场景通常涉及配置分布式执行后端，部署Redis实现智能体间通信，并在多代码库环境中运行自动化测试流程，为理解智能体协作的动态交互提供了标准化实验框架。

衍生相关工作

该数据集的发布催生了系列延伸研究，诸多经典工作围绕其揭示的协调赤字现象展开深入探索。部分研究聚焦于设计新型智能体通信协议以缓解期望失败问题，另有工作致力于开发承诺验证机制来应对智能体的不可靠承诺行为。更有学者基于CooperBench的评估框架构建了增强型协同训练范式，通过课程学习策略逐步提升智能体的团队协作能力。这些衍生研究共同推动了多智能体系统在软件工程、自动化决策等领域的理论发展与技术革新。

数据集最近研究