five

CoderForge-Preview-v3-10000

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v3-10000
下载链接
链接失效反馈
官方服务:
资源简介:
laion/CoderForge-Preview-v3-10000是一个从togethercomputer/CoderForge-Preview数据集的trajectories-tokenized_qwencoder子集中抽取的10,000行预标记数据子集。该数据集专为Qwen3模型设计,包含input_ids、attention_mask、labels等多个字段,适用于文本生成任务。数据来源于四个不同的源(R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1),并通过确定性采样(种子=42)生成。数据集格式为原生预标记,可直接用于axolotl训练框架,支持长序列处理(序列长度可达32768 tokens)。

laion/CoderForge-Preview-v3-10000 is a subset of 10,000 pre-tokenized rows extracted from the trajectories-tokenized_qwencoder subset of the togethercomputer/CoderForge-Preview dataset. This dataset is specifically designed for the Qwen3 model and includes multiple fields such as input_ids, attention_mask, labels, etc., making it suitable for text generation tasks. The data comes from four different sources (R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1) and is generated through deterministic sampling (seed=42). The dataset is in native pre-tokenized format and can be directly used with the axolotl training framework, supporting long sequence processing (sequence length up to 32768 tokens).
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总

数据集概述:laion/CoderForge-Preview-v3-10000

基本信息

  • 许可证:Apache-2.0
  • 任务类别:文本生成(text-generation)
  • 标签:sft、agent、swe-bench、axolotl、pretokenized

数据集来源

该数据集是 togethercomputer/CoderForge-Previewtrajectories-tokenized_qwencoder 子集的行子集,原始数据集包含 4 个来源块(slug)共 155,144 行数据。

数据规模

  • 总行数:10,000 行
  • 采样方式:确定性采样,种子为 42,从 4 个来源块(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1)的连接结果中抽取

数据格式

数据为 Qwen3 的原生预标记化(pre-tokenized)格式(tokenizer 与 Qwen2.5-Coder / Qwen3-Coder / Qwen3-8B 共享)。每行包含以下列:

列名 数据类型 说明
input_ids list[int32] 输入 token ID 序列
attention_mask list[int8] 注意力掩码(全部为 1,由本子集添加以触发 axolotl 的预标记化数据集自动检测)
labels list[int64] 标签序列(已应用 -100 掩码)
chat_template_applied str 解码后的对话渲染(用于调试)
trajectory_id str 轨迹 ID
reward float64 奖励值
source str 固定为 "togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder"

使用方式(Axolotl)

yaml datasets:

  • path: laion/CoderForge-Preview-v3-10000 chat_template: chatml sequence_len: 32768 # 上游数据序列长度可能超过 80k token;axolotl 会进行截断

Axolotl 会自动检测预标记化列并跳过聊天模板渲染器。

搜集汇总
数据集介绍
main_image_url
构建方式
CoderForge-Preview-v3-10000数据集源自于togethercomputer/CoderForge-Preview项目中已预令牌化的轨迹数据,具体从trajectories-tokenized_qwencoder子集中抽样获取。该数据集规模为10,000条,相较于原始数据集包含的155,144条记录、覆盖四个数据源(R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1),此版本提供了一个聚焦且易于处理的小样本集合。构建过程采用确定性抽样策略,以seed=42进行混合与选取,确保数据可复现。数据格式针对Qwen3模型(与Qwen2.5-Coder、Qwen3-Coder和Qwen3-8B共享分词器)进行了原生预令牌化优化,每行数据包含输入ID、注意力掩码、标签等字段,其中注意力掩码统一设为1,仅由本子集添加以触发Axolotl对预令牌化数据集的自动检测。
特点
该数据集的核心特点在于其预令牌化的存储格式与结构化的字段设计,极大提升了下游训练效率。每行记录包含input_ids(int32列表)、attention_mask(int8全1列表)、labels(int64列表,已应用-100掩码)、解码后的聊天模板渲染文本(用于调试)、轨迹ID、奖励分值以及固定的数据来源标识。标签字段已预先完成掩码处理,可直接用于有监督微调。此外,数据集中所有序列的注意力掩码均为全1,简化了模型推理过程中的注意力计算。数据集还支持嵌套的行子集结构,方便用户根据需求进一步抽取或聚焦特定子集。
使用方法
该数据集专为使用Axolotl框架进行有监督微调而设计,推荐配置中需在数据集列表内指定路径为laion/CoderForge-Preview-v3-10000,并设置chat_template为chatml。鉴于上游数据中的序列长度可能超过80,000个令牌,建议将sequence_len参数设为32,768,Axolotl将自动对超出部分进行截断处理。Axolotl能够自动识别预令牌化的字段列,从而跳过聊天模板渲染步骤,直接使用已编码的输入数据进行模型训练,显著简化了数据处理流程。用户仅需调整序列长度参数,即可高效适配不同计算资源下的微调任务。
背景与挑战
背景概述
CoderForge-Preview-v3-10000 数据集由 LAION 与 Together Computer 团队于近期创建,旨在为代码生成与智能体(Agent)相关的大语言模型微调提供高质量、预标记化的训练样本。该数据集源自较大的 CoderForge-Preview 集合,专门筛选了 10,000 条经过 Qwen3 分词器处理的多步骤轨迹数据,覆盖 R2E_Gym、SWE_Rebench、SWE_Smith 及 filtered_reward1 四个子领域。其核心研究问题聚焦于如何通过结构化、预标记化的训练数据提升模型在软件工程任务(如代码补全、bug 修复)中的表现。作为开源数据资源,CoderForge-Preview-v3-10000 显著降低了大模型在代码智能体微调中的数据准备门槛,对推动代码生成与自动化软件工程的发展具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于,现有代码生成数据常缺乏标准化、预处理的交互轨迹,导致模型难以学习连贯的多步推理与工具调用能力。CoderForge-Preview-v3-10000 通过提供已标记化的轨迹数据,尤其包含输入 ID、注意力掩码与标签列,直接支持高效训练,但构建过程仍面临序列长度超限(部分样本超 80k tokens)的技术挑战,需依赖 Axolotl 进行截断处理。此外,来自四个不同来源(如 SWE-Bench 类任务)的异构数据需统一采样与去重,确保分布平衡性与代表性,同时保持确定性随机种子以保证可复现性。这些挑战反映了在融合多样代码任务数据时,对数据清洗、格式对齐与计算资源优化的持续需求。
常用场景
经典使用场景
CoderForge-Preview-v3-10000数据集源自Together Computer团队构建的CoderForge-Preview大规模轨迹库,精选自四类代表性软件工程任务(R2E_Gym、SWE_Rebench、SWE_Smith及filtered_reward1)中经过令牌化处理的指令微调轨迹。该数据集以Qwen3兼容的预令牌化格式存储,包含完整的输入序列、注意力掩码、标签以及对话模板渲染结果,特别适用于对代码生成与软件智能体进行监督式微调。其经典使用场景在于为代码大语言模型提供高质量的软件工程任务训练数据,涵盖调试、补丁生成、仓库级理解等复杂场景,使模型能够学习从问题描述到可执行代码片段的完整推理链路。借助10,000条经过精心抽样的高奖励轨迹,研究者可直接应用于更高效的模型对齐训练,降低数据预处理门槛,加速代码智能体的研发迭代。
衍生相关工作
CoderForge-Preview-v3-10000数据集的衍生工作涵盖了代码智能研究中多个富有影响力的方向。基于其母集CoderForge-Preview,研究者已开发出诸如CoderForge-Chat等对话优化模型,通过筛选高奖励轨迹进行偏好对齐,显著提升了模型在仓库级任务中的指令跟随能力。SWE-agent系列的后续工作在数据格式与任务分解策略上受到该数据集框架的启发,推动了从单轮补丁生成到多步交互式调试的演进。在数据效率方面,该数据集的确定性采样方案被引用至Active-Coder等工作中,用于探索困难轨迹的自动选取与课程学习策略。此外,其预令牌化格式适配了Axolotl生态,间接催生了一批专注于代码领域的高效训练配方与配置模板,降低了大规模代码语言模型实验的准入门槛。
数据集最近研究
最新研究方向
当前,CoderForge-Preview-v3-10000数据集聚焦于代码生成大语言模型的指令微调与智能体行为轨迹优化。该数据集从CoderForge-Preview中精选10,000条预标记的智能体交互轨迹,涵盖R2E_Gym、SWE_Rebench、SWE_Smith等多样化软件工程场景,直接基于Qwen3系列编码器专用模型的tokenizer格式,为SWE-bench等复杂编程任务提供了高质量的训练资源。其意义在于推动端到端代码智能体从理解到执行的全链条能力提升,尤其在高精度reward信号监督下的强化学习与序列截断策略中,已成为评估当代代码生成前沿进展的关键数据基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作