CoderForge-Preview-v3
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v3
下载链接
链接失效反馈官方服务:
资源简介:
laion/CoderForge-Preview-v3 是一个预处理的、预分词的数据集,源自 togethercomputer/CoderForge-Preview 数据集中的 trajectories-tokenized_qwencoder 子集。该数据集包含 155,144 行数据,来源于四个不同的源(R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1),并通过确定性采样(种子为42)生成。数据格式为 Qwen3(与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 共享分词器)的本地预分词数据,每行包含以下字段:input_ids(int32列表)、attention_mask(int8列表,全为1)、labels(int64列表,已应用-100掩码)、chat_template_applied(字符串,用于调试)、trajectory_id(字符串)、reward(float64)和 source(字符串,固定为 togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder)。该数据集适用于文本生成任务,特别是与 axolotl 框架结合使用时,可以跳过聊天模板渲染器。
laion/CoderForge-Preview-v3 is a preprocessed, pre-tokenized dataset derived from the trajectories-tokenized_qwencoder subset of the togethercomputer/CoderForge-Preview dataset. It contains 155,144 rows of data sourced from four different sources (R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1) and generated through deterministic sampling (seed 42). The data format is local pre-tokenized data for Qwen3 (sharing tokenizer with Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B), with each row containing the following fields: input_ids (list of int32), attention_mask (list of int8, all 1s), labels (list of int64, with -100 masking applied), chat_template_applied (string, for debugging), trajectory_id (string), reward (float64), and source (string, fixed as togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder). The dataset is suitable for text generation tasks, especially when used with the axolotl framework, allowing skipping of the chat template renderer.
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总
数据集概述
基本信息
- 数据集名称: laion/CoderForge-Preview-v3
- 许可证: Apache-2.0
- 任务类别: 文本生成(text-generation)
- 标签: sft, agent, swe-bench, axolotl, pretokenized
数据来源与规模
- 来源: 该数据集是
togethercomputer/CoderForge-Preview数据集中trajectories-tokenized_qwencoder子集的子集。 - 数据行数: 155,144 行(来自4个数据分组)。
数据格式
- 格式: 原生预分词数据,适用于 Qwen3 模型(分词器与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 共享)。
- 每行字段:
input_ids:list[int32](输入词元ID)attention_mask:list[int8](全为1,由本子集处理程序添加,用于触发 axolotl 的预分词数据集自动检测)labels:list[int64](已应用-100掩码)chat_template_applied:str(解码后的文本渲染,用于调试)trajectory_id:str(轨迹ID)reward:float64(奖励值)source:str(始终为"togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder")
数据采样
- 采样方式: 确定性地从所有4个源数据分组(R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1)的连接结果中采样,seed=42。
使用方式(axolotl)
-
配置示例: yaml datasets:
- path: laion/CoderForge-Preview-v3 chat_template: chatml sequence_len: 32768 # 上游数据序列可超过80k词元;axolotl 会进行截断
-
自动检测: Axolotl 会自动检测预分词数据列,跳过聊天模板渲染器。
搜集汇总
数据集介绍

构建方式
CoderForge-Preview-v3数据集源自于togethercomputer/CoderForge-Preview中经过预标记化的轨迹数据子集,具体选取了'trajectories-tokenized_qwencoder'子集。该数据集共包含155,144条记录,这些记录来自四个不同的数据源:R2E_Gym、SWE_Rebench、SWE_Smith以及filtered_reward1。为了保证数据划分的确定性与可复现性,研究者采用固定随机种子(seed=42)对四个数据源的数据进行连接与确定性采样。每条记录保存为预标记化的格式,专为Qwen3系列模型设计(其分词器与Qwen2.5-Coder、Qwen3-Coder及Qwen3-8B共享)。每一行数据包含input_ids(int32类型)、attention_mask(int8类型,全为1,由本子集额外添加以触发axolotl的自动检测)、labels(int64类型,已应用-100掩码)、用于调试的可读渲染文本chat_template_applied、轨迹标识符trajectory_id、奖励值reward(float64)以及数据来源source字段。
特点
该数据集最显著的特点在于其预标记化的原生格式,使得数据无需经过额外的分词或格式化处理,即可直接用于Qwen3系列模型的监督微调(SFT)。数据集中的attention_mask列全部被设为1,这一设计是为了兼容axolotl框架对预标记化数据集的自动检测机制。此外,labels列已预先应用了-100掩码,屏蔽了填充或非预测部分,极大简化了训练流程。每一条数据均记录了完整的轨迹信息,包括奖励值,这为基于强化学习或偏好对齐的训练场景提供了便利。数据来源涵盖多个软件工程基准(如R2E_Gym、SWE_Rebench、SWE_Smith),使得数据集在代码生成与智能体任务上具有广泛的覆盖能力。所有序列长度被统一设定为32,768个token,以适配模型输入上限,对于超出长度的原始序列则通过axolotl进行自动截断。
使用方法
CoderForge-Preview-v3数据集最适合通过axolotl框架进行监督微调(SFT)使用。用户在配置axolotl的YAML文件时,在datasets字段下指定数据集路径为'laion/CoderForge-Preview-v3',并设置chat_template为'chatml'。由于数据已经预先完成了标记化处理,axolotl在加载后会跳过其内部的对话模板渲染器,直接识别并读取input_ids、attention_mask和labels等预标记化列,从而高效起始训练。需要注意的是,原始上游数据中部分序列长度可超过80,000个token,因此用户应当设置sequence_len为32,768以控制最大输入长度,超出部分将由axolotl自动进行截断处理,确保训练过程在有限资源的条件下稳定进行。
背景与挑战
背景概述
CoderForge-Preview-v3数据集由LAION与Together Computer等机构于2024年联合构建,聚焦于代码生成与智能代理(Agent)领域中的指令微调任务。其核心研究问题在于如何通过预标记化的高质量轨迹数据,提升大型语言模型在复杂软件工程场景中的代码生成与执行能力。该数据集源自Together Computer发布的CoderForge-Preview,选取了其中经过Qwen3分词器预处理的155,144条轨迹子集,涵盖R2E_Gym、SWE_Rebench、SWE_Smith及filtered_reward1等多个专业子任务。作为专为Qwen3系列模型设计的监督微调资源,CoderForge-Preview-v3在开源社区中推动了代码智能体训练的标准化进程,为自动化软件工程领域提供了关键数据支撑。
当前挑战
该数据集所应对的领域问题在于,现有模型在处理真实软件工程任务时,往往面临长序列代码依赖与多步执行推理的困境。传统数据集缺乏精细化的轨迹标注,难以训练模型完成从需求理解到代码调试的全流程Agent任务。在构建过程中,挑战主要体现为:1)数据来源的异构性,需将四个不同环境生成的轨迹(如SWE-Bench中的演进式任务与R2E_Gym中的交互式指令)统一为可训练的token化格式;2)序列长度管理,上游数据中单条轨迹可超80,000个token,需通过axolotl的截断策略与预设32768的序列长度平衡模型训练效率与信息完整性;3)标签预处理的高复杂度,需在确保输入与标签对齐的同时,对pad部分应用-100掩码以实现损失函数的正确计算。
常用场景
经典使用场景
在代码智能与软件工程领域,CoderForge-Preview-v3数据集主要用于训练大规模语言模型在代码生成与智能体任务中的指令微调能力。其核心使用场景聚焦于通过预分词化的轨迹数据,使模型掌握从自然语言描述到可执行代码的端到端映射逻辑,尤其面向需要多步推理与环境交互的复杂程序合成场景。研究者常利用该数据集对基座模型进行监督微调,以提升其在SWE-bench等基准上的代码修复、调试与重构表现。由于数据已预先适配Qwen系列模型的tokenizer,并保留完整的轨迹ID与奖励信号,该数据集也成为强化学习与偏好对齐训练的理想起点,支持模型在代码生成任务中探索更优的行为策略。
解决学术问题
该数据集致力于解决代码大模型在软件工程任务中缺乏高质量、结构化决策轨迹数据的关键瓶颈。传统代码生成数据集多聚焦于单轮文本到代码的转换,难以覆盖实际开发中涉及环境交互、错误修复与多步规划的复杂过程。CoderForge-Preview-v3通过聚合来自R2E_Gym、SWE_Rebench、SWE_Smith等多源智能体环境的高奖励轨迹,为学术研究提供了可复现的、包含完整上下文与奖励标注的训练样本。这不仅推动了从程序合成到自主代码调试范式的演进,也为探索监督微调与强化学习在软件工程领域的融合路径提供了数据基础,显著提升了模型在真实世界代码任务中的泛化能力。
衍生相关工作
CoderForge-Preview-v3作为高质量轨迹数据子集,催生了一系列围绕代码智能体训练与评估的创新工作。在模型训练端,研究者基于其奖励标注开发了偏好对齐算法,如利用直接偏好优化(DPO)提升模型在代码修复任务中的结构化输出能力。在评估体系方面,该数据集促进了SWE-Bench等基准测试的细粒度分析,衍生出针对轨迹有效性、奖励鲁棒性以及长上下文建模的专项研究。此外,其多源轨迹结构启发了一系列跨环境迁移学习方法,探索如何将从SWE_Smith和R2E_Gym中学到的代码交互策略泛化到未见过的代码仓库与工具链中,推动了代码大模型从实验室研究到工程落地的理论突破。
以上内容由遇见数据集搜集并总结生成



