SWE-Lego dataset

github2026-01-06 更新2026-01-07 收录

下载链接：

https://github.com/SWE-Lego/SWE-Lego

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Lego数据集是一个包含32k高质量任务实例和18k已验证轨迹的集合，结合了真实和合成数据，以在质量和数量上相互补充。

The SWE-Lego Dataset is a collection of 32k high-quality task instances and 18k validated trajectories, integrating real and synthetic data to mutually complement one another across both quality and quantity.

创建时间：

2025-12-30

原始信息汇总

SWE-Lego 数据集概述

数据集基本信息

数据集名称：SWE-Lego
核心目标：用于推动软件工程（SWE）问题解决中监督微调（SFT）性能极限的配方。
发布形式：包含数据集、代码和训练脚本的开源项目。

数据集构成

数据规模：包含约 32k 个高质量任务实例和 18k 个已验证的轨迹。
数据来源：结合了真实数据和合成数据，在质量和数量上互为补充。

关联模型与性能

基础模型：基于 Qwen3-8B 和 Qwen3-32B 模型进行监督微调。
模型性能（在 SWE-Bench-Verified 上评估）：
- SWE-Lego-Qwen3-8B：Pass@1 为 42.2%，TTS@16 为 49.6%。
- SWE-Lego-Qwen3-32B：Pass@1 为 52.6%，TTS@16 为 58.8%。

核心方法组件

SWE-Lego 数据集：高质量任务实例与验证轨迹的集合。
精炼的 SFT 流程：包含错误掩码和基于难度的课程学习，旨在提升动作质量和整体性能。
训练良好的验证器：用于改进测试时扩展（TTS）。

数据获取与使用

Hugging Face 数据集地址：https://huggingface.co/SWE-Lego
包含的数据集：
- SWE-Lego/SWE-Lego-Real-Data
- SWE-Lego/SWE-Lego-Synthetic-Data
代码仓库地址：https://github.com/SWE-Lego/SWE-Lego

相关资源

论文地址：https://arxiv.org/abs/2601.01426
模型地址：
- https://huggingface.co/SWE-Lego/SWE-Lego-Qwen3-8B
- https://huggingface.co/SWE-Lego/SWE-Lego-Qwen3-32B

搜集汇总

数据集介绍

构建方式

在软件工程领域，高质量的数据集对于提升智能体解决实际问题的能力至关重要。SWE-Lego数据集的构建采用了混合数据策略，整合了真实场景中的任务实例与合成生成的数据，共计包含32,000个高质量任务实例以及18,000条经过验证的解决轨迹。这一构建过程注重数据的互补性，既保证了数据规模的扩展，又通过严格的验证机制确保了数据的可靠性与实用性，为后续的监督微调提供了坚实的基础。

特点

该数据集在软件问题解决任务中展现出显著的特点。其核心优势在于融合了真实与合成数据，不仅覆盖了多样化的软件工程场景，还通过精心设计的轨迹验证流程提升了数据的整体质量。数据集支持难度分级课程学习，并引入了错误掩码机制，这些设计使得模型在训练过程中能够更有效地学习复杂问题的解决策略，从而在SWE-Bench-Verified基准测试中实现了卓越的性能表现。

使用方法

使用SWE-Lego数据集进行模型训练与评估遵循一套系统化的流程。用户首先需要配置相应的运行环境，包括vllm、openhands、swebench及llamafactory等工具链。随后，可通过Hugging Face平台下载数据轨迹，并利用提供的脚本进行监督微调训练。推理与评估阶段则涉及模型服务部署、任务执行以及性能测试，整个流程设计清晰，便于研究者在软件工程智能体开发中复现与扩展实验成果。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化解决软件问题已成为提升开发效率的关键研究方向。SWE-Lego数据集于2026年由研究团队提出，旨在通过监督微调技术突破软件问题解决的性能极限。该数据集整合了32,000个高质量任务实例与18,000条已验证轨迹，融合真实与合成数据以互补质量与规模，为核心研究问题——即如何构建高效、可靠的软件工程智能体——提供了重要数据基础。其基于Qwen3系列大语言模型的微调方案，在SWE-Bench-Verified基准测试中取得了领先的通过率，显著推动了自动化软件维护与代码修复领域的技术发展。

当前挑战

软件问题自动解决领域面临的核心挑战在于模型需准确理解复杂、异构的代码上下文与自然语言描述，并生成符合功能需求且无副作用的修复方案。SWE-Lego针对此问题，通过构建高质量轨迹数据与优化训练流程来提升模型的动作质量与泛化能力。在数据集构建过程中，挑战主要体现于如何平衡真实数据与合成数据的质量与规模，确保轨迹验证的准确性与一致性，以及设计有效的课程学习策略以适配不同难度任务。这些挑战的克服直接关系到监督微调方法在复杂软件工程场景中的实际效能与可靠性。

常用场景

经典使用场景

在软件工程领域，自动化解决代码库中的问题（issue）是提升开发效率的关键方向。SWE-Lego数据集通过整合32k高质量任务实例与18k已验证轨迹，为监督微调提供了丰富且可靠的训练素材。该数据集最经典的使用场景在于训练大型语言模型，使其能够理解并执行软件问题的修复任务，例如在SWE-Bench-Verified基准测试中，模型通过分析问题描述、代码上下文及历史轨迹，生成准确的代码修改方案，从而实现对真实世界软件缺陷的自动化处理。

衍生相关工作

围绕SWE-Lego数据集，已衍生出一系列经典研究工作，包括基于其构建的监督微调流程与验证器架构，这些方法在SWE-Bench等基准测试中取得了显著性能提升。同时，该数据集也促进了软件工程智能代理领域的探索，例如结合课程学习与错误掩码的策略优化，以及多模型协作在代码修复任务中的应用。这些工作不仅拓展了数据集的效用，也为自动化软件工程的理论与实践提供了新的思路。

数据集最近研究