SWE-Lego-Real-Data

Hugging Face2026-01-13 更新2026-01-14 收录

下载链接：

https://huggingface.co/datasets/SWE-Lego/SWE-Lego-Real-Data

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Lego-Real-Data数据集包含18k个真实的GitHub问题（Python语言）及其多轮代理轨迹。这些轨迹是通过Qwen/Qwen3-Coder-480B-A35B-Instruct模型和OpenHands代理脚手架收集的，可直接用于SFT训练。数据集分为已解决和未解决的两部分，分别包含5k和13k个GitHub问题。数据集的有效性已通过在SWE-Bench-Verified上训练Qwen3-8B和Qwen3-32B模型的表现得到验证。数据集的结构包括两个Parquet文件，分别对应已解决和未解决的问题。此外，数据集还提供了如何使用这些数据的代码示例，并引用了相关的论文和GitHub资源。

创建时间：

2026-01-05

原始信息汇总

SWE-Lego-Real-Data 数据集概述

数据集简介

SWE-Lego-Real-Data 数据集包含 18k 个真实的 GitHub 问题（Python 语言）及其多轮智能体轨迹。名为 messages 的列是使用 Qwen/Qwen3-Coder-480B-A35B-Instruct 模型与 OpenHands (v0.53.0) 智能体框架收集的，可直接用于监督微调训练。

数据集结构

数据集包含两个 Parquet 文件：

resolved-00000-of-00001.parquet：包含 5k 个已解决轨迹的 GitHub 问题。
unresolved-00000-of-00001.parquet：包含 13k 个未解决轨迹的 GitHub 问题。

有效性评估

该数据集的有效性已通过在 SWE-Bench-Verified 上对 Qwen3-8B 和 Qwen3-32B 模型进行纯监督微调训练得到验证：

SWE-Lego-Qwen3-8B：Pass@1 为 42.2%，TTS@16 为 49.6%。
SWE-Lego-Qwen3-32B：Pass@1 为 52.6%，TTS@16 为 58.8%。

使用方式

数据集可通过 Hugging Face datasets 库加载。支持加载 resolved 或 unresolved 子集，并可选择 instance_id 和 messages 列进行后续处理。

数据来源

SWE-Lego-Real-Data 基于 nebius/SWE-rebench 数据集构建，该数据集包含 21k 个问题-拉取请求对。

引用信息

如果本数据集对您的工作有帮助，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在软件工程领域，高质量的训练数据对于提升智能体解决实际问题的能力至关重要。SWE-Lego-Real-Data数据集的构建基于SWE-rebench这一大规模开源资源，从中筛选出18,000个真实的Python语言GitHub问题。通过采用Qwen3-Coder-480B-A35B-Instruct模型结合OpenHands代理框架，为每个问题生成了多轮交互轨迹，最终形成可直接用于监督微调的结构化数据，涵盖已解决与未解决两类轨迹，为模型训练提供了丰富的现实场景样本。

使用方法

使用该数据集时，研究人员可通过HuggingFace的datasets库便捷加载，支持按解决状态选择特定子集。加载后，用户可提取关键列如实例ID与消息内容，并将其转换为列表或JSON格式以便进一步处理。该数据集专为监督微调设计，其消息列可直接作为训练输入，无需复杂预处理。通过提供的示例代码，用户能够快速集成数据至现有训练流程，加速软件工程智能体的开发与评估进程。

背景与挑战

背景概述

随着人工智能在软件工程领域的深入应用，自动化解决GitHub问题成为提升开发效率的关键方向。SWE-Lego-Real-Data数据集由SWE-Lego团队于2026年创建，基于SWE-rebench数据集构建，专注于Python语言的真实GitHub问题及其多轮代理轨迹。该数据集旨在通过监督微调方法，训练智能代理以理解和解决软件工程中的复杂问题，其核心研究问题在于如何利用大规模真实数据提升代码生成与问题修复的准确性。通过开源数据集、代码及训练脚本，该工作推动了软件工程代理的规模化发展，为相关领域的研究提供了重要基准。

当前挑战

在软件工程自动化领域，智能代理需处理自然语言描述与代码实现之间的语义鸿沟，以及多轮交互中的上下文依赖问题，这要求模型具备强大的推理与代码生成能力。数据集构建过程中，从海量GitHub问题中筛选高质量样本并生成准确的代理轨迹面临挑战，涉及数据清洗、轨迹标注的复杂性，以及确保轨迹与问题解决逻辑的一致性。此外，如何平衡已解决与未解决问题样本的比例，以全面反映真实开发场景的多样性，也是构建过程中的关键难点。

常用场景

经典使用场景

在软件工程领域，自动化处理GitHub问题报告是提升开发效率的关键方向。SWE-Lego-Real-Data数据集以其包含的1.8万条真实Python语言问题及多轮代理轨迹，为监督微调提供了高质量的训练资源。该数据集最经典的使用场景在于训练智能代理模型，使其能够模拟人类开发者解决代码问题的完整决策过程，从而在SWE-Bench-Verified等基准测试中实现高效的问题解决能力验证。

解决学术问题

该数据集有效应对了软件工程中智能代理训练数据稀缺的学术挑战。通过提供大规模、结构化的真实问题解决轨迹，它支持研究者深入探索监督微调在代码生成与问题修复任务上的极限性能。其意义在于推动了自动化软件维护技术的发展，为构建能够理解复杂代码上下文并执行多步推理的智能系统奠定了数据基础，显著提升了模型在真实场景中的泛化与实用价值。

实际应用

在实际应用中，SWE-Lego-Real-Data可直接用于开发高效的软件工程辅助工具。基于该数据集训练的模型能够集成到持续集成流程或IDE插件中，自动分析GitHub问题、生成修复代码或提供解决方案建议。这不仅减轻了开发者的重复性劳动，还加速了软件缺陷的排查与修复周期，为团队协作与项目维护带来了实质性的效率提升。

数据集最近研究