SWE-Mirror-60K

Name: SWE-Mirror-60K
Creator: 字节跳动研究院
Published: 2025-09-11 00:15:23
License: 暂无描述

arXiv2025-09-11 更新2025-09-12 收录

下载链接：

https://arxiv.org/abs/2509.08724v1

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Mirror-60K数据集是一个大规模的可验证任务数据集，包含超过60,671个由GitHub上真实问题镜像到配置好的Gym环境中的问题解决任务。该数据集利用现有的Gym环境和GitHub上的丰富问题解决历史数据构建而成，旨在解决现有问题解决数据集规模不足的问题。通过镜像真实世界的问题，该数据集为模型训练提供了大量高质量的问题解决任务，并通过实验验证了其在提高问题解决能力方面的有效性。

The SWE-Mirror-60K dataset is a large-scale verifiable task dataset, encompassing over 60,671 problem-solving tasks mirrored from real-world GitHub issues into pre-configured Gym environments. Built upon existing Gym environments and rich historical problem-solving data from GitHub, this dataset is designed to address the insufficient scale issue of current problem-solving datasets. By mirroring real-world problems, it offers a substantial number of high-quality problem-solving tasks for model training, and its effectiveness in enhancing problem-solving capabilities has been validated via experimental evaluations.

提供机构：

字节跳动研究院

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

SWE-Mirror-60K数据集通过创新的跨仓库问题镜像流程构建，充分利用GitHub上丰富的软件演化历史与预配置的Gym环境。该流程分为三个阶段：首先从GitHub收集高质量可镜像问题，利用基于规则和语言模型的启发式方法筛选；随后通过抽象问题语义核心，将其映射至目标代码库，并生成测试补丁、镜像补丁及修复补丁；最后通过严格的执行验证确保任务完整性，包括测试状态转换分析和回归检查，仅保留通过验证的实例。

特点

该数据集包含60,671个经过验证的任务实例，覆盖Python、Rust、Go和JavaScript四种编程语言，涉及40个代码仓库。其核心特征在于任务源自真实GitHub问题，兼具真实性与可验证性；通过镜像机制打破任务上下文与Gym环境的一对一依赖，显著提升数据复用效率；每个任务均包含完整的补丁三元组（镜像、测试、修复）及自然语言问题描述，支持隐蔽测试评估，且存储开销仅为100GB，远低于传统方法。

使用方法

SWE-Mirror-60K专为训练和评估代码修复智能体设计，可用于监督微调与强化学习。使用者可加载任务实例的问题描述与镜像补丁作为输入，要求智能体生成修复方案，并通过隐藏的测试补丁验证其正确性。该数据集支持多语言泛化研究，已成功用于训练Qwen2.5-Coder系列模型，在SWE-Bench-Verified等基准上显著提升模型性能。具体实施时需搭配OpenHands等代理框架，支持文件编辑、命令执行等交互工具。

背景与挑战

背景概述

SWE-Mirror-60K数据集由字节跳动Seed团队联合香港中文大学于2025年提出，聚焦于软件工程领域的真实问题解决任务。该数据集通过创新性跨仓库问题镜像技术，将GitHub平台上的真实缺陷报告和功能请求迁移至预配置的测试环境中，构建了包含60,671个可验证任务的规模化资源。其核心研究在于突破传统任务与测试环境的一对一依赖关系，显著提升了数据利用效率，为基于大语言模型的代码修复代理提供了高质量训练基础，推动了自动化软件维护研究的发展。

当前挑战

该数据集主要应对软件工程问题解决中真实任务规模化与验证的挑战：其一，需克服跨语言代码语义一致性保持的难题，尤其在Rust等编译型语言中语法错误率高达36%；其二，镜像过程需精准抽象原始问题的核心逻辑并适配目标仓库架构，避免语义失真；其三，验证阶段需设计多层测试状态转移规则（如PASSED→FAILED→PASSED）以确保任务可复现性。构建过程中面临测试环境配置异构性、多语言动态语义对齐以及大规模数据验证的计算开销等工程挑战。

常用场景

经典使用场景

在软件工程智能体研究领域，SWE-Mirror-60K数据集被广泛用于训练和评估代码修复模型的性能。该数据集通过跨仓库镜像技术，将真实GitHub问题转化为可验证的任务实例，为研究者提供了大规模、高质量的基准测试环境。其经典应用场景包括测试模型在复杂代码库中的问题定位能力、补丁生成准确性以及多语言环境下的泛化性能。

实际应用

在实际软件开发中，该数据集支撑的智能体系统可应用于自动化代码审查、实时错误检测与修复等场景。企业能够利用基于该数据训练的模型，快速响应开源项目中的问题报告，降低人工维护成本。特别是在多语言混合开发环境中，模型展现的跨语言泛化能力为大型项目的持续集成与部署提供了可靠的技术保障。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于错误掩码训练的SWE-Mirror-LM系列模型，其在SWE-Bench-Verified基准上实现了52.2%的解析率。后续研究进一步探索了跨语言泛化机制，如Rust语言数据对Python任务表现的提升作用。这些工作共同推动了Agentic Post-training等训练范式的演进，为软件工程智能体的规模化应用奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集