SWE-ZERO-12M-trajectories
收藏Hugging Face2026-04-18 更新2026-04-19 收录
下载链接:
https://huggingface.co/datasets/AlienKevin/SWE-ZERO-12M-trajectories
下载链接
链接失效反馈官方服务:
资源简介:
SWE-ZERO 12M Trajectories 是一个包含执行无关的代理代码编辑轨迹的数据集,源自 SWE-ZERO 管道。数据集包含 1,453,008 个 rollout,涉及 14,554 个唯一的 PRs,估计 token 数量为 16.6B。数据集采用 Apache-2.0 许可证,适用于文本生成任务,主要语言为英语。数据集规模在 100K 到 1M 之间,包含多个特征字段如 instance_id、repo、messages(包含 role、content、bash_command)、trajectory_format、exit_status、prompt_tokens、completion_tokens 和 duration_sec。数据集的目标是达到 12.3M rollouts 和 140B tokens。数据集定期更新,每达到 10B token 里程碑时更新一次。
创建时间:
2026-04-16
原始信息汇总
SWE-ZERO 12M Trajectories 数据集概述
数据集基本信息
- 名称: SWE-ZERO 12M Trajectories
- 发布者: AlienKevin
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 主要语言: 英语
- 规模类别: 100K < n < 1M
- 标签: swe-zero, code, agentic, pre-training
数据内容与结构
- 描述: 来自 SWE-ZERO 流程的无执行代理式代码编辑轨迹。
- 数据格式: Parquet 文件
- 数据分割: 训练集 (
train),文件模式为data/train-*.parquet - 特征字段:
instance_id: 字符串类型,实例标识符。repo: 字符串类型,代码仓库信息。messages: 序列类型,包含以下子字段:role: 字符串类型,消息角色。content: 字符串类型,消息内容。bash_command: 字符串类型,Bash命令。
trajectory_format: 字符串类型,轨迹格式。exit_status: 字符串类型,退出状态。prompt_tokens: int64类型,提示令牌数。completion_tokens: int64类型,完成令牌数。duration_sec: float64类型,持续时间(秒)。
当前检查点 (20B) 统计信息
| 指标 | 值 |
|---|---|
| 推演次数 | 1,453,008 |
| 唯一PR数 | 14,554 |
| 估计令牌数 | 16.6B |
| 提交率 | 8.9% |
| 使用模型 | ricdomolm/mini-coder-1.7b |
| 数据源 | nebius/SWE-rebench-V2-PRs (126K PRs, 20种语言) |
| 目标 | 12.3M 推演 / 140B 令牌 |
生成流程详情
- 模型: 基于 400K mini-swe-agent 轨迹微调的 Qwen3-1.7B。
- 基础设施: Iris 集群上的 TPU v6e-4/v5p-8/v5litepod-4。
- 配置: 使用 vLLM 服务,TP=4,前缀缓存,32K 上下文,并发数=64。
- 格式: mini-swe-agent v1 (仅限 Bash 交互,沙箱执行)。
- 质量: 生成时过滤错误推演,通过 (instance_id, message_hash) 去重。
相关历史数据集
- https://huggingface.co/datasets/AlienKevin/SWE-ZERO-96K-trajectories: 来自 1B 规模运行的 96K 推演。
- https://huggingface.co/datasets/AlienKevin/SWE-ZERO-multilang-300-trajectories: 来自多语言验证的 300 推演。
更新策略
本数据集在 140B 流程运行期间,每达到 10B 令牌的里程碑时更新。
搜集汇总
数据集介绍

构建方式
在软件工程智能化领域,数据集的构建往往依赖于大规模自动化流程。SWE-ZERO-12M-trajectories数据集源自SWE-ZERO管道,该管道采用经过40万条mini-swe-agent轨迹微调的Qwen3-1.7B模型,在TPU v6e-4/v5p-8/v5litepod-4基础设施上运行。生成过程使用vLLM服务,配置TP=4、前缀缓存和32K上下文长度,以mini-swe-agent v1格式(仅限bash交互,沙箱执行)产生轨迹。为确保数据质量,在生成时过滤错误轨迹,并通过instance_id和message_hash进行去重,数据源来自nebius/SWE-rebench-V2-PRs中的12.6万个拉取请求,涵盖20种编程语言。
特点
该数据集的核心特征在于其专注于执行自由的智能体代码编辑轨迹,为代码生成与代理行为研究提供了丰富资源。数据集规模庞大,当前检查点包含超过145万次模拟运行,涉及1.4万个独立拉取请求,估计标记数达166亿,提交率为8.9%。其轨迹格式统一,每条记录包含实例ID、代码仓库、消息序列(含角色、内容和bash命令)、轨迹格式、退出状态及标记数与持续时间等元数据。数据集采用Apache 2.0许可,支持文本生成任务,并以英语为主,标签涵盖swe-zero、代码、智能体与预训练等领域,属于中等规模类别,且在管道运行中每达到100亿标记里程碑时持续更新。
使用方法
对于研究者而言,该数据集适用于训练或评估代码编辑智能体模型,尤其在软件工程自动化任务中。使用方法涉及加载HuggingFace数据集库中的parquet格式文件,通过指定训练分割路径访问数据。每条轨迹的messages序列提供了完整的交互历史,包括智能体与环境的bash命令对话,可用于分析智能体决策过程或作为序列到序列模型的输入。元数据如exit_status和duration_sec支持性能评估,而prompt_tokens与completion_tokens便于计算效率指标。数据集还可与早期版本如SWE-ZERO-96K-trajectories结合,用于比较研究或增量训练,以探索智能体在代码编辑任务中的扩展行为。
背景与挑战
背景概述
在软件工程智能化研究领域,自动化代码编辑与修复已成为提升开发效率的关键方向。SWE-ZERO-12M-trajectories数据集由marin社区于近期创建,其核心研究问题聚焦于通过无执行环境的智能体轨迹数据,推动代码生成与编辑模型的预训练进程。该数据集基于SWE-ZERO管道构建,整合了来自126K个拉取请求的多样化代码变更实例,旨在为智能体在软件工程任务中的行为模式提供大规模、高质量的轨迹记录。它不仅促进了代码智能体在零样本或少样本场景下的能力演进,也为自动化软件维护与代码优化研究提供了重要的数据支撑。
当前挑战
该数据集致力于解决智能体在代码编辑任务中面临的泛化性与准确性挑战,尤其是在无执行反馈的环境下模拟真实开发流程的复杂性。构建过程中的主要挑战包括:如何从海量拉取请求中提取高质量、多样化的代码变更轨迹,并确保其格式统一与逻辑连贯;在生成阶段需有效过滤错误轨迹并进行去重处理,以维持数据的可靠性与一致性;同时,在基础设施层面,需协调大规模TPU集群以高效处理数十亿级别的令牌数据,并平衡生成速度与资源消耗。这些挑战共同指向了构建可扩展、高保真代码编辑轨迹数据集的工程与算法难点。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,SWE-ZERO-12M-trajectories数据集为智能代码编辑代理的研发提供了关键支持。该数据集通过捕捉大规模、无执行的代码编辑轨迹,典型应用于训练和评估基于大语言模型的自主编程系统。研究人员利用这些轨迹模拟真实开发环境中的交互过程,优化代理在代码理解、修改和调试任务中的决策能力,从而推动自动化软件维护与增强的进展。
实际应用
在实际工业场景中,SWE-ZERO-12M-trajectories数据集能够赋能自动化代码审查与持续集成流程。基于该数据集训练的智能代理可集成至开发工具链,协助工程师快速定位代码缺陷、自动生成补丁或优化现有代码结构。这不仅提升了软件开发的效率与质量,还降低了人工维护成本,为构建下一代智能编程助手和DevOps自动化平台提供了坚实的数据基础。
衍生相关工作
围绕该数据集,学术界与工业界衍生出一系列经典研究工作。例如,基于其轨迹格式开发的mini-swe-agent框架已成为训练轻量级代码代理的流行基准。同时,多项研究利用该数据集探索了多语言代码编辑、长上下文建模以及基于TPU的大规模推理优化等技术方向,进一步推动了代码智能体在架构设计、训练策略和部署效率上的创新。
以上内容由遇见数据集搜集并总结生成



