five

CoderForge-Preview-v3-31600

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v3-31600
下载链接
链接失效反馈
官方服务:
资源简介:
laion/CoderForge-Preview-v3-31600数据集是从togethercomputer/CoderForge-Preview数据集的预分词轨迹子集(trajectories-tokenized_qwencoder子集)中提取的子集,包含31,600行数据。原始数据源包含155,144行,分布在4个slugs中。数据格式为Qwen3的本地预分词数据,分词器与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B共享。每行包含以下字段:input_ids(int32列表)、attention_mask(int8列表,全为1)、labels(int64列表,已应用-100掩码)、chat_template_applied(字符串,用于调试)、trajectory_id(字符串)、reward(float64)和source(字符串,固定为togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder)。数据通过确定性采样(种子=42)从4个源slugs(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)的拼接中获取。该数据集适用于文本生成任务,特别是与Qwen3相关的模型训练。

The laion/CoderForge-Preview-v3-31600 dataset is a subset extracted from the pre-tokenized trajectory subset (trajectories-tokenized_qwencoder subset) of the togethercomputer/CoderForge-Preview dataset, containing 31,600 rows of data. The original data source contains 155,144 rows, distributed across 4 slugs. The data format is Qwen3s local pre-tokenized data, with the tokenizer shared among Qwen2.5-Coder, Qwen3-Coder, and Qwen3-8B. Each row includes the following fields: input_ids (list of int32), attention_mask (list of int8, all 1s), labels (list of int64, with -100 masking applied), chat_template_applied (string, for debugging), trajectory_id (string), reward (float64), and source (string, fixed as togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder). The data was obtained through deterministic sampling (seed=42) from the concatenation of 4 source slugs (R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1). This dataset is suitable for text generation tasks, particularly for training models related to Qwen3.
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总

数据集概述:laion/CoderForge-Preview-v3-31600

该数据集是togethercomputer/CoderForge-Previewtrajectories-tokenized_qwencoder 子集)中预分词轨迹的行子集。

基本信息

  • 许可证:Apache 2.0
  • 任务类型:文本生成
  • 标签:sft、agent、swe-bench、axolotl、pretokenized
  • 数据集大小:31,600 行(源数据集共有 155,144 行,分布于 4 个 slugs)

数据格式

数据集采用针对 Qwen3 的本地预分词格式(分词器与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 共享)。

每行包含的列

  • input_ids:整数列表(int32)
  • attention_mask:整数列表(int8,全部为 1,由本子集添加,以触发 axolotl 的预分词数据集自动检测;上游仅包含 input_ids 和 labels)
  • labels:整数列表(int64,已应用 -100 掩码)
  • chat_template_applied:字符串(用于调试的解码渲染)
  • trajectory_id:字符串
  • reward:浮点数(float64)
  • source:字符串,固定为 "togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder"

采样方式

从 4 个源 slugs(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)的连接中,使用确定性采样(种子=42)生成。行子集是嵌套的。

使用方式(Axolotl)

yaml datasets:

  • path: laion/CoderForge-Preview-v3-31600 chat_template: chatml sequence_len: 32768 # 上游数据中的序列可能超过 80k tokens;axolotl 会进行截断

Axolotl 会自动检测预分词列并跳过聊天模板渲染器。

搜集汇总
数据集介绍
main_image_url
构建方式
CoderForge-Preview-v3-31600数据集源自于togethercomputer/CoderForge-Preview中已预标记化的轨迹数据子集(trajectories-tokenized_qwencoder子集)。该数据集采用确定性采样策略,以随机种子42从四个源slug(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)的串联结果中提取,最终保留了31,600条高质量轨迹,而原始数据在四个slug中共计155,144条。数据以Qwen3原生预标记化格式存储,其分词器与Qwen2.5-Coder、Qwen3-Coder及Qwen3-8B共享,每行包含input_ids、attention_mask、labels等字段,其中attention_mask由本子集补充以确保Axolotl框架的自动检测。
特点
该数据集的核心特点在于其高效压缩与专为代码智能体微调优化的设计。仅31,600条精心采样的轨迹即可覆盖广泛的任务范围,同时保留了原始数据中丰富的奖励信号(reward字段)和清晰的轨迹标识(trajectory_id)。数据采用预标记化格式,所有序列已应用了-100掩码的标签(labels),极大简化了训练前的预处理流程。此外,数据集与Axolotl框架高度兼容,支持自动检测预标记化列,并内置了ChatML模板,使得开发者能够以极低的技术门槛直接开展监督式微调(SFT)实验。
使用方法
使用本数据集时,推荐结合Axolotl框架进行微调。在数据配置中直接指定路径为laion/CoderForge-Preview-v3-31600,并设置chat_template为chatml。由于上游数据中部分序列长度可超过80,000个token,需在配置中设置sequence_len为32,768(或根据硬件条件调整),Axolotl将自动对过长序列进行截断。Axolotl能够识别数据集中的input_ids、attention_mask及labels等预标记化列,从而跳过重复的ChatML渲染步骤,实现高效训练。对于需要原始解码内容的调试需求,数据集还提供了chat_template_applied字段以辅助可视化。
背景与挑战
背景概述
CoderForge-Preview-v3-31600数据集由LAION与Together Computer等机构于近期联合构建,专注于软件工程领域的大语言模型指令微调与智能体(Agent)能力研究。其核心研究问题聚焦于如何通过高质量代码生成与调试轨迹数据提升模型在复杂编程任务中的表现,特别是针对SWE-bench等标准基准的泛化能力。该数据集从togethercomputer/CoderForge-Preview中抽取31,600条预标记化轨迹,涵盖R2E_Gym、SWE_Rebench、SWE_Smith及filtered_reward1四个子集,为Qwen3及Qwen2.5-Coder系列模型提供原生训练支持。作为开源社区在代码智能体领域的重要补充,CoderForge-Preview-v3-31600推动了指令遵循与多步骤推理在软件工程任务中的融合,对AI辅助开发工具的性能提升具有显著影响。
当前挑战
该数据集所解决的领域挑战在于:现有模型面对真实软件工程任务时缺乏有效的多步交互与工具调用能力,而此前的大规模轨迹数据往往混杂低质量样本或格式不兼容。在构建过程中,核心挑战包括:1)从上游155,144条轨迹中筛选出31,600条高代表性子集,需平衡各来源域(如Gym环境的模拟任务与Rebench的真实Bug修复)的分布以避免偏差;2)将非统一的轨迹格式(如仅含input_ids与labels)转化为Axolotl框架可自动识别的预标记化格式(补充attention_mask与chat_template_applied),确保在长达32k(甚至超80k)的序列长度下训练效率与兼容性;3)保持-100掩码标签的正确性,以屏蔽无关填充位置的同时保留对抗性样本的监督信号。
常用场景
经典使用场景
在代码智能与软件工程领域,CoderForge-Preview-v3-31600数据集凭借其预分词化的结构化轨迹数据,成为训练大型语言模型进行代码生成与理解的核心资源。该数据集专为Qwen3系列模型设计,其预处理格式简化了模型微调流程,特别适用于需要进行监督式微调(SFT)的场景,以提升模型在复杂编程任务中的表现。
实际应用
在实际应用中,CoderForge-Preview-v3-31600数据集赋能了智能编程助手的迭代升级,使开发人员能够借助经过该数据训练的语言模型,高效完成代码审查、自动化调试及软件工程任务的执行。其在Agent场景下的表现尤为突出,能够辅助构建具备自主决策能力的代码代理,提升软件开发全周期的生产力。
衍生相关工作
基于该数据集,学术界与工业界衍生了一系列重要工作,包括对预分词轨迹在模型训练中效率优化的研究,以及针对软件工程任务的高精度模型微调策略。此外,该数据集成为SWE-bench等基准测试的配套训练资源,推动了模型在复杂软件工程评测中的性能突破,并激发了对语言模型在代码生成领域序列长度与截断策略的深入探讨。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作