five

CoderForge-Preview-v3-1000

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v3-1000
下载链接
链接失效反馈
官方服务:
资源简介:
laion/CoderForge-Preview-v3-1000 是一个预分词轨迹数据的行子集,源自 togethercomputer/CoderForge-Preview 数据集中的 trajectories-tokenized_qwencoder 子集。该数据集包含 1,000 行数据,从四个源 slug(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)中确定性采样(种子=42)并拼接而成。数据格式为 Qwen3 的原生预分词数据(分词器与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 共享),每行包含以下字段:input_ids(int32 列表)、attention_mask(int8 列表,全为 1)、labels(int64 列表,已应用 -100 掩码)、chat_template_applied(字符串,用于调试)、trajectory_id(字符串)、reward(float64)和 source(字符串,固定为 togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder)。该数据集适用于文本生成任务,特别是与 axolotl 框架配合使用,支持长序列处理(序列长度可达 32768 令牌)。
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总

数据集概述:laion/CoderForge-Preview-v3-1000

基本信息

属性 内容
数据集名称 CoderForge-Preview-v3-1000
发布机构 LAION
许可证 Apache-2.0
任务类型 文本生成(text-generation)
标签 sft、agent、swe-bench、axolotl、pretokenized

数据来源与规模

  • 来源数据集togethercomputer/CoderForge-Preview 的子集,具体取自其中的 trajectories-tokenized_qwencoder 子集。
  • 数据规模:共 1,000 行数据(源数据包含 155,144 条,来自 4 个数据板块)。
  • 采样方式:确定性采样(随机种子 seed=42),将 4 个源板块(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)拼接后抽取。

数据格式

数据集采用 Qwen3 的预分词格式(分词器与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 兼容),每行包含以下列:

列名 类型 说明
input_ids list[int32] 输入 token ID 序列
attention_mask list[int8] 注意力掩码(全部为 1,由本子集添加,用于触发 axolotl 的自动检测)
labels list[int64] 标签序列(已应用 -100 掩码)
chat_template_applied str 解码后的文本渲染,用于调试
trajectory_id str 轨迹唯一标识符
reward float64 奖励分数
source str 固定为 "togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder"

使用方式(axolotl)

推荐在 axolotl 训练框架中使用,配置示例如下:

yaml datasets:

  • path: laion/CoderForge-Preview-v3-1000 chat_template: chatml sequence_len: 32768 # 上游数据中序列长度可能超过 80k tokens,axolotl 会自动截断

使用该配置后,axolotl 将自动检测预分词列并跳过 chat_template 渲染步骤。

搜集汇总
数据集介绍
main_image_url
构建方式
CoderForge-Preview-v3-1000数据集源自togethercomputer/CoderForge-Preview中已预分词的处理轨迹子集(trajectories-tokenized_qwencoder),通过确定性采样方式(随机种子设定为42)从R2E_Gym、SWE_Rebench、SWE_Smith及filtered_reward1四个数据源中截取1,000行数据构成。该数据集直接采用Qwen3原生预分词格式,每行包含input_ids、attention_mask(全为1)、labels(已应用-100掩码)、可读解码后的chat_template_applied、trajectory_id、reward及source字段,使得数据可以直接用于模型微调,免去了重复分词的开销。
特点
该数据集核心特征在于其原生预分词结构,针对Qwen3(与Qwen2.5-Coder/Qwen3-Coder/Qwen3-8B共享分词器)优化,可直接被Axolotl等训练框架识别,省去传统数据集所需的在线分词渲染步骤。此外,attention_mask列由本子集处理补充,以触发Axolotl对预分词数据集的自动检测机制,大幅提升训练效率。尽管仅含1,000行,但其覆盖了四个软件工程Agent轨迹数据源,以较小的规模保留了多源异构任务的代表性样本,适合作为快速验证和实验的基准集合。
使用方法
该数据集专为Axolotl训练框架设计,使用时在YAML配置中指定路径为laion/CoderForge-Preview-v3-1000,设置对话模板为chatml,并可根据可用显存设定序列长度(推荐32,768),Axolotl将自动检测预分词列并跳过对话模板渲染环节。需要注意的是,上游数据中部分序列长度超过80,000个token,Axolotl会自动执行截断操作,因此用户应当根据模型的最大上下文长度及相关训练目标合理配置sequence_len参数。
背景与挑战
背景概述
近年来,随着大语言模型在代码生成与软件工程自动化领域的蓬勃发展,如何构建高质量、多样化的训练数据以提升模型的代码理解和推理能力,成为学界与工业界共同关注的焦点。CoderForge-Preview-v3-1000数据集由LAION与Together Computer等机构于近期联合发布,旨在为代码智能体(Agent)微调提供精简而代表性的预标记化轨迹样本。该数据集从原始完整的CoderForge-Preview数据集中,针对四个关键子任务领域——R2E_Gym环境交互、SWE-bench基准评测及奖励过滤轨迹——进行了确定性采样,形成包含1000条高价值序列的子集。其数据格式直接适配Qwen3系列模型(如Qwen2.5-Coder、Qwen3-Coder),支持高达32k以上的序列长度,显著降低了领域内研究者进行代码智能体对齐训练的门槛,对推动开源代码模型在复杂软件工程任务中的应用产生了积极的示范效应。
当前挑战
当前该数据集所解决的领域核心挑战在于:传统的代码生成数据集多聚焦于单轮函数补全,而现代软件工程需要模型具备在真实环境中的多步骤交互式调试与任务规划能力。CoderForge-Preview-v3-1000通过提供智能体执行轨迹数据,赋予了模型学习代码仓库级环境理解、工具调用与错误修正等复杂行为的能力。然而,在构建过程中,团队面临了诸多棘手的挑战:一是原始轨迹长度极度不均,部分序列超过8万token,如何在不丢失关键上下文的前提下进行截断与采样;二是不同子任务(如Gym模拟任务与SWE-bench实体仓库任务)的交互模式差异巨大,需要设计统一的轨迹表征和奖励信号;三是数据格式的兼容性,需确保预标记化的input_ids、labels与attention_mask能无缝对接Axolotl等主流微调框架的自动检测机制,且需对长达80k+的序列做好实用化的截断策略,这些均对数据工程质量提出了严苛要求。
常用场景
经典使用场景
CoderForge-Preview-v3-1000 数据集专为代码生成与软件工程智能体(Agent)的文本生成任务而设计。在编程语言模型微调(SFT)的经典场景中,研究者利用其预标记化的 Qwen3 格式轨迹数据,高效训练模型理解并执行复杂的代码补全、Bug 修复及多步编程推理。其每一条样本均包含完整的交互轨迹、奖励信号以及掩码标签,使得该数据集成为评估和改进代码智能体在真实软件开发任务中表现的关键基准。
解决学术问题
该数据集有效解决了代码智能体研究中训练数据稀缺且格式不统一的核心难题。通过整合来自 SWE-bench、R2E Gym 等多个权威基准的多样化轨迹,并采用标准化的预标记化格式,它消除了数据处理中的冗余环节,使得研究者可以专注于模型架构与算法的优化。此外,其内嵌的奖励信号为探究强化学习在代码生成与调试过程中的作用提供了可靠支点,推动了指令微调与奖励机制融合的学术探索。
衍生相关工作
CoderForge-Preview-v3-1000 衍生了多项经典工作,其中最引人注目的是基于其轨迹数据构建的代码智能体推理框架。研究者利用该数据集评估了不同规模模型在任务规划、上下文理解与工具调用等维度的能力,进而提出了诸如轨迹蒸馏、奖励重排序等改进策略。此外,其预标记化格式还催生了高效微调工具链(如 Axolotl 中的自动化适配模块),为代码领域大规模预训练与指令对齐的研究奠定了实践基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作