AGENTISSUE-BENCH

github2025-05-27 更新2025-05-28 收录

下载链接：

https://github.com/alfin06/AgentIssue-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

AGENTISSUE-BENCH是第一个专注于真实世界代理系统问题的可复现问题解决基准测试。它旨在评估最先进的软件工程（SE）代理在解决这些问题上的效果。通过多步过滤过程——包括失败复现、补丁复现和非不稳定性验证——我们收集了50个可复现的代理问题，形成了AGENTISSUE-BENCH。

AGENTISSUE-BENCH is the first reproducible problem-solving benchmark focusing on real-world agent system issues. It aims to evaluate the performance of state-of-the-art software engineering (SE) agents when addressing these problems. We curated 50 reproducible agent system problems via a multi-step filtering process that includes failure reproduction, patch reproduction, and non-instability verification, thus forming AGENTISSUE-BENCH.

创建时间：

2025-05-22

原始信息汇总

AGENTISSUE-BENCH 数据集概述

数据集简介

名称: AGENTISSUE-BENCH
性质: 首个专注于真实世界代理系统问题的可复现问题解决基准
目的: 评估最先进的软件工程（SE）代理在解决这些问题中的效能

数据集构成

数量: 50个可复现的代理问题
筛选过程:
- 故障复现
- 补丁复现
- 非脆弱性验证
容器化: 每个问题都封装为Docker镜像
存储位置: Docker Hub (https://hub.docker.com/r/llmagents/agentissue-bench/tags)

数据获取与使用

获取全部镜像: bash $ python pull_images.py
获取特定镜像: bash $ python pull_images.py --tag <tag>
删除全部镜像和容器: bash $ python remove_images.py
删除特定镜像和容器: bash $ python remove_images.py --tag <tag>

评估结果

总体解决率: 包含与传统软件问题的对比 (outputimagesar.png)
详细结果: SE代理在AGENTISSUE-BENCH上的表现 (outputimages able_results.png)

补丁生成

评估对象: 3种最先进的SE代理
补丁生成: 针对真实世界代理问题的解决方案

实验设置

克隆仓库: bash $ git clone https://github.com/To-D/AgentIssue-Bench.git
运行SE代理:
- Agentless: bash $ cd Agentless $ conda create -n agentless python=3.12 $ conda activate agentless $ chmod +x run_agentless.sh $ ./run_agentless.sh
- AutoCodeRover: bash $ cd auto-code-rover $ conda create -n auto-code-rover python=3.12 $ conda activate auto-code-rover $ python run_autocoderover.py
- SWE-agent: bash $ cd SWE-agent $ conda create -n swe_agent python=3.12 $ conda activate swe_agent $ chmod +x gen_patches_all.sh $ ./gen_patches_all.sh

生成补丁

存储结构:

Generated Patches/ ├── swe-agent/ # SWE-agent生成的补丁 ├── Agentless/ # Agentless生成的补丁 └── Auto-code-rover/ # Auto-code-rover生成的补丁
使用的LLM:
- claude-3-5-sonnet-20241022
- gpt-4o

搜集汇总

数据集介绍

构建方式

在软件工程领域，AGENTISSUE-BENCH数据集的构建采用了严谨的多阶段筛选流程，包括故障重现、补丁重现以及非随机性验证等关键步骤。通过这一系统性方法，研究团队从真实场景中精选出50个具有代表性的智能体系统问题，每个问题均被封装为标准化Docker镜像，确保了实验环境的可复现性和一致性。这种容器化处理方式不仅便于分发管理，也为后续的基准测试奠定了可靠基础。

特点

作为首个专注于智能体系统问题解决的基准测试集，AGENTISSUE-BENCH的突出特点在于其真实性问题场景的完整封装。数据集涵盖多种典型故障模式，每个案例都经过严格验证确保可复现性。特别值得注意的是，该基准测试集采用容器化技术实现环境隔离，支持对三种前沿软件工程智能体（包括Agentless、AutoCodeRover和SWE-agent）的性能评估，并兼容Claude-3-5-Sonnet和GPT-4O等大型语言模型的测试需求。

使用方法

使用AGENTISSUE-BENCH进行基准测试时，研究人员需先通过专用脚本拉取Docker镜像建立测试环境。数据集提供完整的命令行操作指南，支持批量或按需获取特定案例。评估过程中，用户可分别在隔离环境中运行不同智能体系统，生成的补丁文件将自动归类存储。为便于结果分析，配套脚本还包含环境清理功能，确保测试过程的高效与可重复。整个工作流程充分考虑了研究便利性，从环境配置到结果收集形成完整闭环。

背景与挑战

背景概述

AGENTISSUE-BENCH作为首个专注于真实世界智能体系统问题的可复现问题解决基准，由相关研究团队于2025年5月正式发布。该数据集通过多阶段筛选流程，包括故障复现、补丁复现及非随机性验证，精心收集了50个可复现的智能体问题，并以Docker镜像形式封装。其核心研究目标在于评估前沿软件工程智能体在解决实际问题中的效能，为智能体系统的可靠性研究提供了标准化评估框架。这一创新性工作填补了智能体系统问题解决领域缺乏可复现基准的空白，对推动软件工程智能体的技术进步具有重要意义。

当前挑战

在解决领域问题方面，AGENTISSUE-BENCH面临如何准确评估不同智能体在复杂系统环境中的真实解决能力的挑战，这涉及到问题场景的代表性、评估指标的全面性等关键因素。数据集构建过程中，研究团队需克服问题筛选的高标准要求，确保每个案例都具备可复现性、典型性和非随机性。同时，将各类问题统一封装为Docker镜像的技术实现也带来了工程复杂度，包括环境隔离、依赖管理等技术难题。这些挑战的解决直接关系到基准数据集的质量和实用价值。

常用场景

经典使用场景

在软件工程领域，AGENTISSUE-BENCH数据集为评估软件工程代理系统在解决真实世界问题中的效能提供了标准化测试环境。该数据集通过容器化技术封装了50个可复现的代理系统问题，研究人员可以利用这些预设场景，系统性地比较不同代理系统在问题定位、修复方案生成等方面的表现。这种可复现的基准测试环境，极大促进了软件工程代理系统研究的科学性和可比性。

解决学术问题

AGENTISSUE-BENCH有效解决了软件工程代理系统研究中缺乏标准化评估基准的难题。传统研究中，由于问题场景不可复现或难以验证，不同代理系统的性能对比往往缺乏说服力。该数据集通过严格的筛选流程，包括故障复现、补丁验证等环节，确保了每个问题的可复现性，为学术界提供了可靠的性能评估依据，推动了软件工程代理系统研究的规范化发展。

衍生相关工作

基于AGENTISSUE-BENCH数据集，学术界已衍生出多项重要研究。其中包括对SWE-agent、Agentless和Auto-code-rover等主流软件工程代理系统的性能评估研究，以及探索大型语言模型在软件问题修复中的应用潜力。这些研究不仅验证了数据集的实用价值，也为软件工程代理系统的发展提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集