CoderForge-Preview-v3-3160
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v3-3160
下载链接
链接失效反馈官方服务:
资源简介:
laion/CoderForge-Preview-v3-3160是一个预分词轨迹数据的子集,源自togethercomputer/CoderForge-Preview数据集中的trajectories-tokenized_qwencoder子集。该数据集包含3,160行数据,是从4个源数据块(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)中确定性采样(种子为42)得到的。数据格式为Qwen3的原生预分词数据(分词器与Qwen2.5-Coder/Qwen3-Coder/Qwen3-8B共享)。每行数据包含以下字段:input_ids(int32列表)、attention_mask(int8列表,全为1)、labels(int64列表,已应用-100掩码)、chat_template_applied(字符串,用于调试)、trajectory_id(字符串)、reward(float64)和source(字符串,固定为togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder)。该数据集适用于axolotl框架,配置时需指定chat_template为chatml,并设置sequence_len为32768(因上游数据序列可能超过80k标记,axolotl会进行截断)。
laion/CoderForge-Preview-v3-3160 是一个预分词轨迹数据子集,其数据源为 togethercomputer/CoderForge-Preview 数据集下的 trajectories-tokenized_qwencoder 子集。该数据集共包含3160行数据,通过设置采样种子为42的确定性采样方式,从R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1这4个源数据块中抽取得到。其数据格式为Qwen3原生预分词数据,所用分词器与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B共享。
每行数据包含以下字段:input_ids(int32类型列表)、attention_mask(int8类型列表,所有元素均为1)、labels(int64类型列表,已应用-100掩码)、chat_template_applied(字符串类型,用于调试)、trajectory_id(字符串类型)、reward(float64类型)以及source(字符串类型,固定取值为 togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder)。
该数据集适配axolotl框架,配置时需指定聊天模板为chatml,并将序列长度设置为32768。由于上游数据的序列长度可能超过80k标记,axolotl框架会自动对数据进行截断处理。
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总
数据集概述:laion/CoderForge-Preview-v3-3160
基本信息
- 数据集名称:
laion/CoderForge-Preview-v3-3160 - 许可证:Apache-2.0
- 任务类别:文本生成(text-generation)
- 标签:sft、agent、swe-bench、axolotl、pretokenized
数据来源与规模
- 原始来源:来自 togethercomputer/CoderForge-Preview 数据集的
trajectories-tokenized_qwencoder子集。 - 数据量:包含 3,160 行(原始数据共 155,144 行,分布在 4 个 slug 中)。
- 采样方式:使用确定性采样(seed=42),从 4 个源 slug(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)的拼接结果中提取。行子集支持嵌套。
数据格式
- 模型兼容性:原生预分词数据,专为 Qwen3 设计(tokenizer 与 Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B 共享)。
- 每行字段:
input_ids:列表类型,元素为 int32attention_mask:列表类型,元素为 int8(全部为 1;由本子集添加,用于触发 axolotl 对预分词数据集的自动检测)labels:列表类型,元素为 int64(已应用 -100 掩码)chat_template_applied:字符串类型,解码后的文本渲染,用于调试trajectory_id:字符串类型reward:浮点数类型(float64)source:字符串类型,固定为"togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder"
使用方式(axolotl 示例)
-
配置示例: yaml datasets:
- path: laion/CoderForge-Preview-v3-3160 chat_template: chatml sequence_len: 32768 # 上游数据序列长度可能超过 80k tokens;axolotl 会进行截断
-
特别说明:Axolotl 会自动识别预分词列,跳过聊天模板渲染器。
搜集汇总
数据集介绍

构建方式
CoderForge-Preview-v3-3160数据集源自togethercomputer/CoderForge-Preview中预分词化的轨迹数据,具体选取了'trajectories-tokenized_qwencoder'子集。原始数据涵盖R2E_Gym、SWE_Rebench、SWE_Smith和filtered_reward1四个子项目,共155,144条轨迹。本研究以确定性采样方式(seed=42)从所有四个来源的拼接结果中抽取3,160行,形成当前子集。每行数据包含input_ids、attention_mask、labels等字段,其中attention_mask被设为全1,以触发axolotl对预分词数据集的自动检测。labels字段已应用-100掩码,便于模型训练时忽略填充部分。此外,还保留了chat_template_applied、trajectory_id、reward和source等元信息,便于后续分析与调试。
特点
该数据集的核心特点在于其高度适配Qwen3系列模型(与Qwen2.5-Coder、Qwen3-Coder及Qwen3-8B共享分词器),数据以原生预分词格式存储,大幅提升了训练效率。所有序列均为int32类型的token ID列表,且已附带完整的注意力掩码和标签掩码,用户无需额外预处理即可直接用于模型微调。数据来源多样化,涵盖多个代码生成与软件工程基准场景,如SWE-bench相关任务,使得数据集在智能体(agent)微调场景中具有广泛适用性。值得一提的是,数据集中部分序列长度超过80,000个token,为长上下文建模提供了宝贵的训练素材。
使用方法
用户可通过axolotl框架便捷地使用该数据集。在配置文件中指定数据集路径为'laion/CoderForge-Preview-v3-3160',并设置聊天模板为'chatml',序列长度上限为32,768。axolotl将自动识别预分词列(如input_ids、attention_mask和labels),跳过常规的聊天模板渲染步骤,直接加载预训练格式数据进行训练。对于超过设定长度上限的序列,框架将自动执行截断操作。此外,由于数据已预先标记完成并附带attention_mask,用户在调用时无需额外编写数据预处理逻辑,显著降低了使用门槛,尤其适合对代码生成、智能体等任务进行高效微调的场景。
背景与挑战
背景概述
CoderForge-Preview-v3-3160数据集由LAION与Together Computer合作创建,作为CoderForge-Preview项目的子集,专注于代码生成与智能体任务微调。该数据集于近期发布,核心研究问题在于如何通过高质量的预标记化轨迹数据提升大型语言模型在复杂软件工程基准(如SWE-bench)上的任务解决能力。通过筛选来自R2E_Gym、SWE_Rebench、SWE_Smith及filtered_reward1四个来源的高奖励样本,该数据集为优化Qwen3等代码模型提供了关键训练资源,对推动代码智能体与自动化软件修复领域的发展具有显著影响力。
当前挑战
CoderForge-Preview-v3-3160数据集面临的挑战包括:1) 在领域问题上,代码生成与智能体任务需要模型理解复杂软件工程场景,而现有模型常因上下文长度限制(如单条轨迹超过80,000词元)导致推理能力受限,数据集通过提供预标记化格式和截断机制缓解该问题;2) 构建过程中,从155,144条轨迹中筛选仅3,160行样本需平衡代表性比例与奖励信号质量,同时确保跨四个数据分片(slugs)的多样性,避免过拟合特定任务;3) 数据格式方面,需兼容Axolotl的预标记化检测机制,并处理不同数据源间的标签对齐与注意力掩码一致性。
常用场景
经典使用场景
在代码智能与软件工程交叉领域中,CoderForge-Preview-v3-3160数据集被广泛用于监督微调(SFT)大规模语言模型,特别是针对代码生成与智能体(Agent)行为对齐的场景。该数据集收录了来自R2E_Gym、SWE_Rebench、SWE_Smith等平台的高质量轨迹数据,经预分词处理为Qwen3兼容格式,便于高效训练。其经典用途在于通过给定编程问题与多步交互轨迹,引导模型学习从上下文理解、工具调用到代码修正的完整逻辑链条,从而提升模型在复杂软件工程任务中的自主推理与执行能力。数据集以3,160条精选样本浓缩了十五万条以上的轨迹精华,成为代码Agent微调研究中的基准训练资源。
衍生相关工作
围绕CoderForge-Preview-v3-3160数据集,衍生出了一系列具有里程碑意义的相关工作。研究者以此为基础,深入探索了代码Agent中的Token效率优化策略,提出了针对超长序列(超过80k tokens)的分层注意力蒸馏方法,显著降低训练与推理时的计算开销。另一重要分支侧重于奖励模型的构建与过程信号利用,催生了基于细粒度代码步骤质量评估的闭环微调框架,推动了从结果监督到过程监督的范式迁移。此外,跨平台轨迹泛化研究借助该数据集的多样来源特性,揭示了不同软件环境间能力迁移的关键因素,使得轻量级模型可在R2E_Gym等仿真平台训练后,零样本迁移至SWE-bench等现实评测集,为通用代码智能体的研发铺设了坚实路径。
数据集最近研究
最新研究方向
基于融合多种软件工程环境与代码生成任务的大规模预训练轨迹数据,CoderForge-Preview-v3-3160为多智能体协作框架下的代码生成与修正研究提供了关键支撑。该数据集精选自CoderForge-Preview,覆盖R2E_Gym、SWE_Rebench与SWE_Smith等异构来源,聚焦于从环境交互中提取的高质量代理解码轨迹,与近期因大语言模型在自动化软件工程(SWE-bench)基准上的突破性进展密切相关。其预分词化格式与Qwen3系列模型无缝衔接,使得长序列代码理解与智能体行为学习的研究得以高效推进,对于探索基于奖励信号筛选的轨迹精细化方法、以及构建面向复杂编程任务的端到端代码生成范式具有深远意涵。
以上内容由遇见数据集搜集并总结生成



