SWE-bench Pro

github2025-09-20 更新2025-09-22 收录

下载链接：

https://github.com/scaleapi/SWE-bench_Pro-os

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Bench Pro是一个具有挑战性的基准测试，用于评估LLMs/Agents在长周期软件工程任务上的表现。给定一个代码库和一个问题，语言模型需要生成一个解决所述问题的补丁。

SWE-Bench Pro is a challenging benchmark designed to evaluate the performance of LLMs/Agents on long-duration software engineering tasks. Given a codebase and a problem, language models are required to generate a patch that resolves the stated problem.

创建时间：

2025-09-06

原始信息汇总

SWE-Bench Pro 数据集概述

数据集简介

SWE-Bench Pro 是一个具有挑战性的基准测试，用于评估大型语言模型/智能体在长周期软件工程任务上的表现。该数据集要求语言模型根据给定的代码库和问题描述，生成解决问题的补丁。

数据来源

该数据集灵感来源于 SWE-Bench：https://github.com/SWE-bench/SWE-bench

数据获取方式

python from datasets import load_dataset swebench = load_dataset(ScaleAI/SWE-bench_Pro, split=test)

评估环境设置

使用 Docker 实现可复现的评估
评估脚本需要 Modal 来扩展评估集
预构建的 Docker 镜像存储地址：https://hub.docker.com/repository/docker/jefzda/sweap-images/general

镜像命名格式

jefzda/sweap-images:{repo_base}.{repo_name}-{repo_base}__{repo_name}-{hash}

示例： jefzda/sweap-images:gravitational.teleport-gravitational__teleport-82185f232ae8974258397e121b3bc2ed0c3729ed-v626ec2a48416b10a88641359a169d99e935ff03

使用方法

使用选择的工具生成补丁预测
运行以下命令评估补丁预测：

bash python sweap_pro_eval_modal.py --raw_sample_path=external_hf_v2.csv --patch_path={OUTPUT}/gold_patches.json --output_dir={OUTPUT}/ --scripts_dir=run_scripts --num_workers=100 --dockerhub_username=your-username

搜集汇总

数据集介绍

构建方式

在软件工程智能体评估领域，SWE-bench Pro数据集通过精心筛选真实世界代码库中的长期任务构建而成。其构建过程基于GitHub开源项目的实际issue与代码提交记录，采用自动化流程提取任务上下文及对应补丁，确保每个实例包含完整代码库状态、问题描述及标准解决方案。数据集通过Docker容器化技术固化每个任务的执行环境，保障实验的可复现性与一致性。

特点

该数据集的核心特点在于其聚焦长周期软件工程任务的复杂性，要求模型理解分布式代码库上下文并生成结构化补丁。实例涵盖多模块交互、跨文件依赖等现实开发场景，且每个任务均配备可独立运行的Docker镜像环境。数据集通过Modal云平台实现分布式评估架构，支持大规模并发测试，其评估指标严格遵循软件补丁的功能正确性与集成适应性标准。

使用方法

使用者可通过Hugging Face数据集库直接加载数据集，利用load_dataset('ScaleAI/SWE-bench_Pro')接口获取标准化测试集。评估流程需预先配置Modal云服务凭证与Docker环境，通过专用评估脚本注入模型生成的补丁文件。系统会自动在容器化环境中验证补丁功能，输出通过率、错误类型等量化指标，支持研究者横向比较不同模型在复杂软件维护任务上的性能表现。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，SWE-bench Pro数据集由ScaleAI研究团队于2024年推出，旨在评估大语言模型与智能代理在长周期软件工程任务中的实际效能。该数据集以代码库与问题报告为输入，要求模型生成可解决问题的补丁程序，延续并扩展了原始SWE-bench的核心设计理念，显著推动了自动化软件维护与智能编程助手领域的研究进程。

当前挑战

该数据集针对长周期软件工程任务中代码理解、跨文件上下文维护及精准补丁生成等复杂问题提出挑战，要求模型具备深层逻辑推理与系统级代码分析能力。构建过程中需克服真实代码库的复杂性模拟、动态依赖环境的重现以及大规模分布式评估框架的设计难题，这些技术瓶颈直接影响了基准测试的可靠性与泛化能力。

常用场景

经典使用场景

在软件工程智能化研究领域，SWE-bench Pro数据集被广泛用于评估语言模型与智能代理处理长周期软件开发任务的能力。研究者通过该数据集模拟真实开发环境，要求模型基于给定的代码库和问题描述生成修复补丁，从而系统测试模型在代码理解、逻辑推理和工程实践方面的综合表现。

实际应用

在实际工业场景中，SWE-bench Pro能够指导开发智能编程助手系统，协助工程师高效处理大型代码库中的遗留问题与功能请求。其应用延伸至自动化测试、持续集成流程优化以及企业级软件开发平台的智能化升级，显著提升了软件维护的效率和代码质量。

衍生相关工作

受SWE-bench Pro启发，学术界涌现出一系列专注于代码修复与代理协作的衍生研究，例如基于多模态输入的程序理解框架、强化学习驱动的补丁生成策略，以及面向异构代码库的迁移学习方法。这些工作共同推动了智能软件工程向更高效、更可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集