swe-forge

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/CortexLM/swe-forge

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Forge Benchmark是一个与SWE-bench兼容的数据集，专为代码生成和错误修复任务设计。该数据集遵循SWE-bench格式，并增加了对多语言支持、难度评分和质量指标的额外字段。数据集包含多个字段，如实例ID、代码仓库、基础提交、补丁、测试补丁、问题描述、提示文本等。数据按难度分为简单和中等两个子集，并以Parquet格式存储。数据集通过从真实GitHub拉取请求中挖掘生成，使用LLM引导的管道进行测试生成和质量评分。适用于代码生成、错误修复和软件工程基准测试等任务。数据集采用Apache 2.0许可证。

创建时间：

2026-02-14

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化代码修复与测试验证是提升开发效率的关键环节。SWE-Forge数据集的构建过程体现了严谨的工程化思维，其核心在于从GitHub真实代码库中提取了108个经过精心筛选的任务实例。每个任务均基于具体的Pull Request生成，涵盖了Python、TypeScript等多种编程语言的实际缺陷修复场景。为确保数据质量，构建团队采用大型语言模型代理在全新的Docker容器中对每个任务的安装命令序列进行了自动化验证，并通过完整的测试回放流程保证了任务环境的可复现性。这种将真实开发问题与严格验证流程相结合的方法，为代码生成与修复研究提供了高可靠性的基准数据。

特点

该数据集在软件工程基准测试领域展现出多维度特性。其任务实例均配备经过验证的安装命令，确保了实验环境的一致性；每个任务包含完整的元数据字段，如问题描述、原始提示、测试用例列表及难度分级，为模型评估提供了丰富上下文。数据集采用SWE-bench兼容格式，便于与现有研究工具链集成，同时通过质量评分与难度标注实现了任务的细粒度分类。任务目录结构的设计尤为精妙，不仅包含标准化的配置文件与测试脚本，还保留了原始代码库的提交哈希与补丁信息，使得研究者能够精准还原开发场景。这种兼顾实用性与学术严谨性的设计，使其成为评估代码生成模型综合能力的理想平台。

使用方法

使用该数据集时，研究者可通过HuggingFace数据集库直接加载，其标准化的数据分割与字段结构便于快速进行实验迭代。每个任务实例的完整配置信息存储在独立目录中，包含工作区定义文件、问题提示文档及测试脚本，支持端到端的代码修复流程模拟。在评估模型性能时，可依据FAIL_TO_PASS与PASS_TO_PASS字段定义的测试用例验证修复效果，同时利用难度分级与质量评分进行多维度的结果分析。数据集提供的验证安装命令能够自动配置隔离的测试环境，确保不同实验间的可比性。这种开箱即用的设计显著降低了软件工程基准测试的实施门槛，为代码智能研究提供了标准化实验框架。

背景与挑战

背景概述

在软件工程领域，自动化代码修复与程序调试一直是提升开发效率的核心研究方向。SWE-Forge数据集作为SWE-bench的衍生基准，由CortexLM团队于近期构建，专注于评估大型语言模型在真实世界软件缺陷修复任务中的性能。该数据集精心选取了来自GitHub开源项目的108个编程任务，涵盖Python、TypeScript、Go等多种语言，每个任务均包含经过验证的安装命令与完整的测试环境配置，旨在为代码生成与缺陷修复研究提供高可靠性的评估框架。其创建不仅推动了智能编程助手技术的发展，也为软件维护自动化研究设立了新的实证标准。

当前挑战

该数据集致力于解决软件工程中自动化缺陷修复的挑战，其核心问题在于如何让模型理解复杂的代码上下文并生成符合测试要求的正确补丁。构建过程中的主要挑战包括：确保任务环境的高度可复现性，这需要通过容器化技术验证每个安装序列；以及从海量开源项目中筛选具有代表性且难度分级的缺陷案例，同时保持问题陈述的清晰性与测试覆盖的完整性。此外，平衡不同编程语言的分布与任务难度层次，以构建全面而均衡的评估基准，亦是数据集构建中的关键难点。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，SWE-Forge数据集作为代码修复任务的基准测试工具，其经典使用场景聚焦于评估大型语言模型在自动化软件缺陷修复中的能力。研究者利用该数据集构建端到端的评估流程，通过模拟真实GitHub仓库中的问题报告与补丁生成任务，系统性地测试模型理解问题描述、生成正确代码修改并确保测试通过的综合性能。这一场景不仅涵盖了从自然语言到代码的转换，还强调了环境配置与测试验证的完整性，为代码生成模型的稳健性提供了严谨的衡量标准。

衍生相关工作

围绕SWE-Forge数据集，已衍生出一系列经典研究工作，主要集中在增强代码修复模型的泛化能力与评估方法创新上。例如，研究者利用该数据集的多样化任务分布，开发了针对多编程语言的统一修复框架，提升了模型在Python、TypeScript等不同生态中的适应性。同时，基于其严谨的测试验证机制，后续工作探索了更细粒度的评估指标，如补丁生成的可解释性与执行效率，进一步推动了自动化软件工程基准向更高真实性与复杂性的演进。

数据集最近研究