CoderForge-Preview-v3-316
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v3-316
下载链接
链接失效反馈官方服务:
资源简介:
laion/CoderForge-Preview-v3-316数据集是从togethercomputer/CoderForge-Preview中预处理的轨迹数据中抽取的一个子集,包含316行数据。原始数据源共有155,144行,分布在4个不同的数据块中。数据集采用Qwen3的本地预处理格式,每行数据包含input_ids、attention_mask、labels、chat_template_applied、trajectory_id、reward和source等字段。数据集通过确定性抽样从4个源数据块的拼接中生成,适用于文本生成任务,并可与axolotl工具配合使用,支持chatml模板和最大32768的序列长度。
The laion/CoderForge-Preview-v3-316 dataset is a subset extracted from the preprocessed trajectory data in togethercomputer/CoderForge-Preview (trajectories-tokenized_qwencoder subset). It contains 316 rows of data, with the original data source comprising 155,144 rows distributed across 4 different chunks. The dataset uses Qwen3s local preprocessing format (shared with Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B tokenizers). Each row includes fields such as input_ids (list of int32), attention_mask (list of int8, all 1s), labels (list of int64 with -100 masking applied), chat_template_applied (string, rendered result for debugging), trajectory_id (string), reward (float64), and source (string, fixed as togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder). The dataset is generated through deterministic sampling (seed 42) from the concatenation of 4 source data chunks (R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1), with subset rows nested. It is suitable for text generation tasks and can be used with the axolotl tool, supporting chatml templates and a maximum sequence length of 32768.
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总
根据您提供的数据集详情页面,以下是关键信息的总结:
数据集概述
- 数据集名称: laion/CoderForge-Preview-v3-316
- 来源: 源自 togethercomputer/CoderForge-Preview 数据集中的
trajectories-tokenized_qwencoder子集的行子集。 - 规模: 包含 316 行数据(原始来源有 155,144 行,分布于 4 个 slug)。
- 许可证: Apache-2.0
- 任务类别: 文本生成(text-generation)
- 标签: sft、agent、swe-bench、axolotl、pretokenized
数据格式
数据采用针对 Qwen3(分词器与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 共享)的原生预分词格式。每行包含以下列:
input_ids:list[int32]类型attention_mask:list[int8]类型(全部为 1;由本子集添加,以便 axolotl 的预分词数据集自动检测;上游仅包含 input_ids 和 labels)labels:list[int64]类型(已应用-100掩码)chat_template_applied:str类型(解码后的渲染内容,用于调试)trajectory_id:str类型reward:float64类型source:str类型(固定值为"togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder")
采样方法
- 确定性采样: 使用种子 seed=42,从所有 4 个来源 slug(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)的连接结果中采样。行子集是嵌套的。
使用方式 (axolotl)
-
配置示例: yaml datasets:
- path: laion/CoderForge-Preview-v3-316 chat_template: chatml sequence_len: 32768
-
说明: Axolotl 会自动检测预分词列,跳过 chat_template 渲染器。上游数据中的序列长度可能超过 80k 个 token,axolotl 会进行截断。
搜集汇总
数据集介绍

构建方式
CoderForge-Preview-v3-316 数据集源自于 togethercomputer/CoderForge-Preview 中经过预分词处理的轨迹数据子集,具体选取了 'trajectories-tokenized_qwencoder' 部分。原始数据包含 155,144 条轨迹,分布于四个领域的子数据集(R2E_Gym、SWE_Rebench、SWE_Smith 和 filtered_reward1),而本数据集则以确定性采样方式(随机种子为 42)从这些数据拼接后抽取了 316 条记录。每一条数据均以原生预分词格式存储,专为 Qwen3 模型设计,其分词器与 Qwen2.5-Coder、Qwen3-Coder 及 Qwen3-8B 共享。数据列包括 `input_ids`(int32 列表)、`attention_mask`(全为 1 的 int8 列表,用于触发 axolotl 的预分词数据集自动检测)、`labels`(已应用 -100 掩码的 int64 列表)、解码后的聊天模板文本、轨迹标识符、奖励分数以及来源标注。这一构建方式确保数据能够直接被训练框架高效加载,无需重复分词。
特点
该数据集最为显著的特点在于其精炼与专用性。在具备广泛应用场景的软件工程智能体(agent)轨迹数据基础上,通过严格筛选获得极小规模但高质量的子集,适用于快速原型验证或小样本调优。数据格式采用原生预分词结构,直接包含经过 -100 掩码处理的标签列,大幅简化了训练流程中的预处理步骤。此外,每个样本均提供解码后的聊天模板渲染结果,便于开发者在调试过程中直观检查数据内容。序列长度支持高达 32,768 个 token,充分覆盖复杂的软件工程多步交互场景。数据集的奖励分数字段则可用于基于强化学习或偏好对齐的微调范式,增加了使用的灵活性。
使用方法
数据集推荐与 axolotl 框架协同使用,以充分发挥其预分词格式的优势。在配置文件中,用户只需指定数据集路径为 'laion/CoderForge-Preview-v3-316',并设置聊天模板为 'chatml',序列长度根据模型需求调整(建议 32,768 以兼顾长序列与显存限制)。Axolotl 会自动识别 `input_ids`、`attention_mask` 和 `labels` 列,跳过聊天模板渲染步骤,从而避免重复分词导致的时间消耗与潜在错误。对于更广泛的自然语言生成任务,也可直接复用此配置,利用数据集中丰富的软件工程智能体交互轨迹进行监督微调或对齐训练。
背景与挑战
背景概述
在代码生成与智能体系统(Agent)领域,高质量的监督微调(SFT)数据集是推动模型从语言理解迈向复杂任务执行的关键引擎。2024年,由Together Computer与LAION等机构联合发布了CoderForge-Preview-v3-316数据集,其核心研究问题在于为基于Qwen3架构的代码模型提供经过预分词处理的轨迹数据,以提升模型在软件工程基准(SWE-Bench)等任务上的智能体行为能力。该数据集从包含15.5万条轨迹的原始大规模轨迹库中,通过确定性采样策略(seed=42)精选出316条高质量样本,每条轨迹均包含完整的输入ID、注意力掩码、标签及奖励信号。作为CoderForge-Preview系列的轻量级子集,它专注于解决预分词数据在Axolotl等微调框架中的适配问题,为后续模型在代码修改、环境交互等复杂场景的泛化研究奠定了数据基础,其开放Apache-2.0许可进一步促进了学术与工业界的协作探索。
当前挑战
该数据集所应对的核心挑战来自两个层面。在领域问题层面,现有代码模型在处理长序列轨迹时面临严重的上下文长度瓶颈——上游轨迹数据中单条序列常超过8万token,而标准微调框架的截断操作可能导致关键决策信息的丢失,进而影响智能体在软件工程任务中的成功率。在数据构建层面,如何从155,144条异构的原始轨迹中高效筛选出具有代表性且训练稳定的样本是主要难点:不同来源(如R2E_Gym、SWE_Rebench)的轨迹在结构形态、奖励分布和掩码策略上存在显著差异,需要统一的预分词格式与标签处理逻辑(如-100掩码的预应用)以确保数据一致性。此外,为确保轨迹的序列长度在训练中可控,筛选过程需兼顾奖励信号的质量与截断后语义的完整性,这进一步增加了子集采样的技术复杂性。
常用场景
经典使用场景
在代码生成与智能体(Agent)任务微调领域,CoderForge-Preview-v3-316 数据集凭借其精心挑选的316条预编码轨迹,成为高效训练大语言模型的核心资源。该数据集源自大规模轨迹集合,聚焦于软件工程场景中的复杂任务,如代码修复、环境交互与奖励优化。其数据格式与 Qwen3 系列分词器完美适配,支持超长序列(高达32k tokens)的细粒度训练,尤其适合通过 Axolotl 框架进行轻量级监督微调。研究人员常利用该子集快速验证模型在代码智能体场景下的行为对齐能力,无需处理完整海量数据,显著降低实验门槛。
衍生相关工作
该数据集衍生了一系列聚焦于代码智能体行为优化的经典工作。其上游数据集 CoderForge-Preview 本身即是大规模轨迹收集的代表作,而 v3-316 子集则催生了针对小样本高效微调的方法研究,如利用奖励加权损失函数提升对齐效果。此外,该数据与 SWE-bench、R2E_Gym 等基准紧密关联,支持了多任务联合训练策略的探索,并启发了后续工作如长序列记忆压缩技术、基于代码执行轨迹的表示学习等,成为连接数据驱动模型与工程实践的重要枢纽。
数据集最近研究
最新研究方向
在软件工程与代码智能的交叉领域中,CoderForge-Preview-v3-316数据集作为预标记化轨迹数据的精选子集,正推动着大语言模型在自动化编程代理与智能体任务上的前沿探索。该数据集聚焦于SWE-bench等真实软件工程场景下的多步骤交互轨迹,通过保留完整的输入输出与奖励信号,为强化学习对齐与长上下文建模提供了高质量的微调基准。近期研究热点围绕如何利用此类高密度轨迹数据提升代码生成代理的鲁棒性与任务完成率,尤其是在复杂仓库级代码修复与自我演进系统中,该资源的意义在于弥合预训练语言模型与实用编程代理之间的行为鸿沟,加速了从代码补全向端到端自主编程的范式跃迁。
以上内容由遇见数据集搜集并总结生成



