Qwen3-32B-SweSmith-traces
收藏Hugging Face2026-03-12 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/laion/Qwen3-32B-SweSmith-traces
下载链接
链接失效反馈官方服务:
资源简介:
Qwen3-32B SweSmith RL Training Traces 数据集包含了 Qwen3-32B 模型在 SWEsmith 软件工程任务上进行强化学习训练的轨迹数据。数据集由 Terminus-2 代理使用 RLOO (rloo_n) 算法训练生成,涵盖了 1-20 个训练步骤,总计约 236,000 个对话片段,涉及 2,500 个 SWEsmith 任务。数据集中包含多个字段,如对话内容(conversations,包含角色和内容的字典列表)、代理名称(agent)、模型名称(model)、任务标识符(task)、片段编号(episode)、试验名称(trial_name)、结果(result,通过或失败)、任务指令文本(instruction)以及验证器输出的测试结果(verifier_output)。该数据集适用于研究强化学习在软件工程任务中的应用,以及模型训练和性能分析。
提供机构:
LAION eV
创建时间:
2026-03-12
原始信息汇总
Qwen3-32B SweSmith RL Training Traces 数据集概述
数据集来源
- 数据集名称:Qwen3-32B SweSmith RL Training Traces
- 存储地址:https://huggingface.co/datasets/laion/Qwen3-32B-SweSmith-traces
数据集内容
- 数据描述:该数据集包含了在SWEsmith任务上对Qwen3-32B模型进行强化学习(RL)训练的训练轨迹。
- 任务来源:SWEsmith软件工程任务(任务页面:https://github.com/SWE-bench/SWEsmith)。
- 总数据量:约236,000个对话片段(conversation episodes)。
- 任务数量:2,500个SWEsmith任务。
技术细节
- 基础模型:Qwen/Qwen3-32B
- 智能体:Terminus-2
- 训练算法:RLOO (rloo_n)
- 训练步数范围:第1步至第20步
数据结构
数据文件格式为Parquet,训练集数据文件路径模式为:data/shard-*.parquet。
数据列说明
| 列名 | 描述 |
|---|---|
conversations |
由{role, content}字典组成的消息列表 |
agent |
智能体名称(固定为terminus-2) |
model |
模型名称 |
task |
任务标识符 |
episode |
试验内的片段编号 |
trial_name |
唯一的试验标识符 |
result |
通过/失败的结果 |
instruction |
任务指令文本 |
verifier_output |
来自验证器的测试输出 |
搜集汇总
数据集介绍
构建方式
在软件工程智能化研究领域,Qwen3-32B-SweSmith-traces数据集的构建体现了强化学习与代码生成任务的深度融合。该数据集源于对Qwen3-32B模型在SWEsmith软件工程任务平台上进行的强化学习训练轨迹的系统性采集。具体而言,研究团队采用Terminus-2智能体架构,并运用RLOO算法,在2500个涵盖实际软件开发场景的任务上执行了多轮训练。训练过程被划分为20个关键步骤,每一轮交互均被完整记录,最终汇聚成约23.6万条对话片段,并以分片Parquet格式高效存储,确保了数据序列的完整性与可追溯性。
特点
该数据集的核心特征在于其高度结构化的轨迹记录与丰富的元信息标注。每条数据不仅包含模型与智能体在任务解决过程中的完整对话序列,清晰呈现了思考与行动链,还附带了任务指令、验证器输出以及最终通过与否的结果标签。这种设计使得数据集能够精确反映强化学习策略在复杂代码生成环境中的动态调整过程。同时,统一的列结构如任务标识、试验名称与回合编号,为深入分析训练稳定性、策略收敛性以及错误模式提供了多维度的研究切入点,极具实证研究价值。
使用方法
对于研究者而言,该数据集为探索大语言模型在程序合成与自动化调试领域的强化学习行为提供了宝贵的实证资源。用户可通过加载指定的Parquet数据文件,直接访问训练对话历史与对应结果,进而用于行为克隆、策略分析或训练动态的可视化研究。数据集中的`conversations`字段完整保留了人机交互的原始消息流,结合`result`与`verifier_output`字段,能够支持对模型决策成败原因的细粒度归因分析。此外,其标准化的格式也便于集成到现有的强化学习或代码生成评估框架中,用于训练新智能体或作为基线系统的性能对比基准。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码生成与修复任务日益成为研究热点。Qwen3-32B-SweSmith-traces数据集由相关研究团队于近期构建,旨在记录Qwen3-32B大型语言模型在SWEsmith软件工程任务上进行强化学习训练的全过程轨迹。该数据集聚焦于探索智能体在复杂编程环境中的决策逻辑与性能演进,其核心研究问题涉及如何通过强化学习优化模型在代码理解、生成与调试方面的能力,为自动化软件开发与智能编程助手的研究提供了宝贵的实证数据支撑,对推动代码智能领域的算法创新与评估标准化具有显著影响力。
当前挑战
该数据集所针对的领域挑战在于,软件工程任务通常具备高度的结构复杂性与语义模糊性,要求模型不仅能生成语法正确的代码,还需深入理解任务需求、上下文依赖及测试验证逻辑,实现精准的问题解决。在构建过程中,研究人员面临多维度挑战:一是需要设计高效的强化学习算法与奖励机制,以在数千个异构编程任务上稳定训练大规模模型;二是必须处理海量交互轨迹数据的采集、清洗与标准化,确保对话序列、任务标识及验证结果的完整性与一致性;三是需平衡数据规模与计算资源,在有限步骤内捕获有意义的性能演进模式,为后续分析提供可靠基础。
常用场景
经典使用场景
在强化学习驱动的代码生成领域,Qwen3-32B-SweSmith-traces数据集为研究智能体在复杂软件工程任务中的行为轨迹提供了详实记录。该数据集捕捉了Qwen3-32B模型在SWEsmith基准任务上,通过Terminus-2智能体与RLOO算法进行多轮交互的完整对话历史,包括指令、响应及验证结果。这些轨迹数据成为分析模型决策过程、探索策略优化路径以及评估代码生成可靠性的核心资源,尤其适用于研究大语言模型在自动化编程任务中的迭代学习与错误修正机制。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在强化学习策略分析、轨迹数据挖掘与代码生成模型改进等方面。研究常基于这些轨迹进行离线策略评估、行为克隆或逆强化学习,以提取有效决策模式。同时,轨迹被用于训练奖励模型、构建课程学习策略或开发新型验证机制。相关工作不仅深化了对大语言模型在编程任务中能力边界的理解,也催生了更高效的训练算法与评估框架,持续推动着代码生成与软件工程自动化研究的前沿进展。
数据集最近研究
最新研究方向
在软件工程自动化领域,Qwen3-32B-SweSmith-traces数据集为强化学习在代码生成与修复任务中的应用提供了关键实证轨迹。该数据集聚焦于SWEsmith基准的2500项软件工程任务,记录了Qwen3-32B模型通过Terminus-2代理基于RLOO算法进行训练的全过程对话。当前前沿研究正深入分析这些训练轨迹,以探索大语言模型在复杂编程环境中的决策模式、错误修复机制及泛化能力。热点方向包括利用轨迹数据优化强化学习策略、提升模型在真实世界软件维护任务中的自动化水平,以及推动代码智能体向更高效、可靠的自主系统演进。这一资源不仅加速了AI驱动软件开发的实证研究,也为构建下一代智能编程助手奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



