ScaleSWE

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/AweAI-Team/ScaleSWE

下载链接

链接失效反馈

官方服务：

资源简介：

ScaleSWE数据集来源于6M+的pull请求和23000+的仓库，覆盖5200个仓库，包含100k高质量实例和71k来自DeepSeek v3.2的轨迹（3.5B token）。该数据集是目前最大的真实可执行开源SWE数据集，包含20,000个SWE任务实例。

The ScaleSWE dataset is derived from over 6 million pull requests across more than 23,000 repositories, covering 5,200 repositories in total. It consists of 100,000 high-quality instances and 71,000 trajectories generated by DeepSeek v3.2, with a total of 3.5 billion tokens. As the largest real-world executable open-source SWE dataset to date, it includes 20,000 SWE task instances.

创建时间：

2026-02-03

原始信息汇总

ScaleSWE 数据集概述

数据集基本信息

数据集名称：ScaleSWE
发布机构：AweAI-Team
发布日期：2026-02-26
论文标题：Immersion in the GitHub Universe: Scaling Coding Agents to Mastery
论文链接：https://arxiv.org/abs/2602.09892
许可证：CC BY 4.0
数据获取：https://huggingface.co/collections/AweAI-Team/scale-swe

数据规模与来源

数据来源：源自超过600万个拉取请求和超过23000个代码仓库。
覆盖范围：涵盖5200个代码仓库。
实例数量：包含10万个高质量实例。
蒸馏轨迹：包含来自DeepSeek v3.2的7.1万条轨迹，共计35亿个令牌。
当前发布：已发布2万个SWE任务实例，是目前最大的开源可执行SWE数据集。

数据内容与格式

编程语言：当前为Python。
核心字段：
- instance_id：唯一标识符，格式为{user}_{repo}_pr{id}。
- user：GitHub仓库所有者。
- repo：GitHub仓库名称。
- language：代码库的编程语言。
- workdir：环境内的工作目录路径。
- image_url：任务预构建Docker镜像的URL。
- patch：来自对应拉取请求的真实补丁（Golden Patch）。
- pr_commit：拉取请求的提交哈希。
- parent_commit：父提交（基础状态）的提交哈希。
- problem_statement：描述问题的议题说明，作为模型输入。
- f2p_patch：开发者编写的测试补丁，包含修复前失败的测试（如果可用）。
- f2p_script：由单元测试创建代理生成的合成复现脚本。
- FAIL_TO_PASS：在错误版本上失败但在修复后通过的单元测试。
- PASS_TO_PASS：在两个版本中都通过的单元测试（回归测试）。
- github_url：原始GitHub仓库的URL。
- pre_commands：进入容器后必须立即执行的命令，用于检出正确的提交。

性能表现

训练模型：在合成轨迹上对Qwen-30B-A3B-Instruct进行了微调。
评估结果：在SWE-bench-Verified上达到64%的通过率。

引用信息

@misc{zhao2026immersiongithubuniversescaling, title={Immersion in the GitHub Universe: Scaling Coding Agents to Mastery}, author={Jiale Zhao and Guoxin Chen and Fanzhe Meng and Minghao Li and Jie Chen and Hui Xu and Yongshuai Sun and Xin Zhao and Ruihua Song and Yuan Zhang and Peng Wang and Cheng Chen and Jirong Wen and Kai Jia}, year={2026}, eprint={2602.09892}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2602.09892}, }

搜集汇总

数据集介绍

构建方式

在软件工程领域，大规模高质量数据集的构建对于提升智能编码代理的性能至关重要。ScaleSWE数据集从超过六百万个拉取请求和两万三千余个代码仓库中精心筛选，覆盖了五千二百个Python项目，最终构建了包含十万个高质量实例的数据集。其构建过程不仅提取了真实可执行的软件工程任务，还通过蒸馏技术生成了七万一千条来自DeepSeek v3.2模型的轨迹数据，总计达三十五亿个令牌，确保了数据集的广度和深度。

特点

ScaleSWE数据集以其规模宏大和真实性著称，是目前最大的开源可执行软件工程数据集。每个实例均包含唯一标识符、工作目录、预构建的Docker镜像链接以及从拉取请求中提取的真实补丁，同时提供了问题描述、开发者编写的测试补丁和合成的单元测试脚本。数据集特别设计了FAIL_TO_PASS和PASS_TO_PASS两类单元测试，能够精确验证代码修复的有效性和回归稳定性，为智能编码代理的训练与评估提供了坚实的基准。

使用方法

研究人员和开发者可通过Hugging Face平台获取ScaleSWE数据集，利用其预构建的Docker环境复现任务场景。数据集支持直接用于训练智能编码代理，例如通过微调大型语言模型如Qwen-30B-A3B-Instruct，以提升其在真实软件工程任务中的表现。每个实例均配备了完整的元数据和执行命令，用户可依据问题描述和测试套件，在指定工作目录中执行代码修复任务，进而评估代理的准确性与效率。

背景与挑战

背景概述

在软件工程领域，自动化代码修复与智能编程助手的研究长期面临高质量、可执行数据稀缺的瓶颈。ScaleSWE数据集由AweAI团队于2026年创建，其核心研究问题聚焦于如何通过大规模、真实的GitHub开源项目数据，训练能够理解复杂代码库上下文并执行实际修复任务的智能体。该数据集从超过600万个拉取请求和23000余个代码仓库中精心筛选，构建了十万级高质量实例，并辅以从DeepSeek v3.2模型蒸馏的轨迹数据，显著提升了代码智能体在真实环境中的问题解决能力，对推动软件工程自动化与智能编程助手迈向实用化产生了深远影响。

当前挑战

ScaleSWE数据集旨在攻克软件工程任务中智能体面临的现实挑战，其核心是解决代码修复与功能实现任务的泛化性与可靠性问题。具体而言，挑战体现在两个方面：在领域问题层面，如何让模型精准理解自然语言描述的问题、导航复杂的代码库结构、并生成可通过单元测试验证的正确补丁；在构建过程层面，挑战源于从海量GitHub数据中自动化提取高质量、可复现的任务实例，包括准确关联问题报告与修复补丁、构建隔离且一致的执行环境，以及合成能够可靠验证修复效果的单元测试，这些步骤均需克服数据噪声大、依赖关系复杂与测试覆盖不足等难题。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，ScaleSWE数据集为代码智能体的训练与评估提供了关键基础设施。其经典使用场景聚焦于自动化软件修复任务，通过从GitHub海量拉取请求中提取的真实可执行实例，模拟开发者在实际代码库中定位并修复缺陷的完整流程。研究者利用该数据集构建端到端的编码代理，使其能够理解问题描述、分析代码上下文、生成修复补丁，并在隔离环境中验证补丁的正确性，从而推动智能编程助手向实用化迈进。

衍生相关工作

ScaleSWE数据集已催生了一系列前沿研究工作，其中最具代表性的是其配套发布的AweAgent框架，该框架原生支持对ScaleSWE数据的处理与智能体训练。基于数据集中提取的深度轨迹蒸馏数据，研究者进一步优化了如Qwen等大型语言模型的代码修复性能，在SWE-bench-Verified基准上取得了突破性成果。这些衍生工作不仅验证了数据集的有效性，也为构建下一代具备自主学习和环境交互能力的编码智能体提供了方法论与工具链支撑。

数据集最近研究