AGENTISSUE-BENCH
收藏AGENTISSUE-BENCH 数据集概述
数据集简介
- 名称: AGENTISSUE-BENCH
- 性质: 首个专注于真实世界代理系统问题的可复现问题解决基准
- 目的: 评估最先进的软件工程(SE)代理在解决这些问题中的效能
数据集构成
- 数量: 50个可复现的代理问题
- 筛选过程:
- 故障复现
- 补丁复现
- 非脆弱性验证
- 容器化: 每个问题都封装为Docker镜像
- 存储位置: Docker Hub (https://hub.docker.com/r/llmagents/agentissue-bench/tags)
数据获取与使用
-
获取全部镜像: bash $ python pull_images.py
-
获取特定镜像: bash $ python pull_images.py --tag <tag>
-
删除全部镜像和容器: bash $ python remove_images.py
-
删除特定镜像和容器: bash $ python remove_images.py --tag <tag>
评估结果
- 总体解决率: 包含与传统软件问题的对比 (outputimagesar.png)
- 详细结果: SE代理在AGENTISSUE-BENCH上的表现 (outputimages able_results.png)
补丁生成
- 评估对象: 3种最先进的SE代理
- 补丁生成: 针对真实世界代理问题的解决方案
实验设置
-
克隆仓库: bash $ git clone https://github.com/To-D/AgentIssue-Bench.git
-
运行SE代理:
-
Agentless: bash $ cd Agentless $ conda create -n agentless python=3.12 $ conda activate agentless $ chmod +x run_agentless.sh $ ./run_agentless.sh
-
AutoCodeRover: bash $ cd auto-code-rover $ conda create -n auto-code-rover python=3.12 $ conda activate auto-code-rover $ python run_autocoderover.py
-
SWE-agent: bash $ cd SWE-agent $ conda create -n swe_agent python=3.12 $ conda activate swe_agent $ chmod +x gen_patches_all.sh $ ./gen_patches_all.sh
-
生成补丁
-
存储结构:
Generated Patches/ ├── swe-agent/ # SWE-agent生成的补丁 ├── Agentless/ # Agentless生成的补丁 └── Auto-code-rover/ # Auto-code-rover生成的补丁
-
使用的LLM:
- claude-3-5-sonnet-20241022
- gpt-4o




