CoderForge-Preview-v6-316

Name: CoderForge-Preview-v6-316
Creator: LAION eV
Published: 2026-04-25 02:31:43
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/laion/CoderForge-Preview-v6-316

下载链接

链接失效反馈

官方服务：

资源简介：

laion/CoderForge-Preview-v6-316数据集是togethercomputer/CoderForge-Preview数据集的一个子集，专门针对文本生成任务设计，特别是用于训练模型处理带有先行推理的OpenHands-XML线格式。数据集包含316行数据（源自1,386行），采用确定性随机抽样方法（种子为42）。每行数据以JSON格式呈现，包括轨迹ID、奖励值、数据来源及一系列消息。消息中系统、用户和助理角色分别承担不同功能，助理消息包含<think>推理块和OpenHands XML工具调用。此版本（v6）在每个助理回合开始处注入了<think>块，以解决之前版本中模型训练时出现的问题。数据集适用于使用axolotl进行训练，配置中需指定消息字段和训练标记。

The laion/CoderForge-Preview-v6-316 dataset is a subset of the togethercomputer/CoderForge-Preview dataset, specifically designed for text generation tasks, particularly for training models to handle OpenHands-XML wire format with prior reasoning. The dataset contains 316 rows of data (derived from 1,386 rows), using a deterministic random sampling method (seed 42). Each row of data is presented in JSON format, including trajectory ID, reward value, data source, and a series of messages. The messages involve system, user, and assistant roles with distinct functions, where assistant messages contain <think> reasoning blocks and OpenHands XML tool calls. This version (v6) injects <think> blocks at the beginning of each assistant turn to address issues encountered during model training in previous versions. The dataset is suitable for training with axolotl, requiring the specification of message fields and training tokens in the configuration.

提供机构：

LAION eV

创建时间：

2026-04-25

搜集汇总

数据集介绍

构建方式

CoderForge-Preview-v6-316数据集是基于togethercomputer/CoderForge-Preview数据集的trajectories子集与filtered_reward1筛选策略，通过行级子采样构建而成。原始数据集的1,386行数据经过确定性的随机采样（种子号为42）后，精简为316条高质量轨迹。在构建过程中，每条助理回复的开头均被注入<think>REASONING</think>推理块，该推理内容源自轨迹原生助理内容或合成think工具的thought参数。随后采用OpenHands XML工具调用格式进行封装，工具观测结果被转换为<tool_response>格式的user角色消息。每个消息项均包含train布尔标识以支持axolotl框架的损失遮蔽。

特点

该数据集最显著的特点在于其专门针对Qwen3模型架构的预训练先验进行优化设计。由于标准Qwen3-8B模型在助理回复起始位置对<think>令牌赋予接近100%的先验概率，此前版本因数据缺失该令牌导致模型长上下文连贯性严重退化。v6版本通过在每个助理回复前植入推理块，消除了模型参数灾难性更新的风险。数据采用原生OpenHands XML格式而非Hermes风格包装，评估框架中通过设置disable_tool_calls参数直接识别工具调用标记。数据集虽规模精简至316条，但每一条均蕴含完整的软件工程交互轨迹与修正奖励信号。

使用方法

该数据集推荐使用axolotl框架进行监督微调。用户需在配置文件中指定数据集路径为laion/CoderForge-Preview-v6-316，数据文件指向coderforge-preview_v6_316.jsonl。采用chat_template类型加载，通过field_messages字段映射至messages键，并利用message_field_training参数启用基于train字段的逐消息损失遮蔽。聊天模板设置为tokenizer_default以保持与模型原始分词器最大兼容。此方法可确保模型在训练过程中正确处理推理块与工具调用格式，同时避免对系统提示和用户输入等非训练字段造成不必要的影响。

背景与挑战

背景概述

CoderForge-Preview-v6-316数据集由LAION与Together Computer等机构于近期联合发布，旨在解决代码生成领域大语言模型在智能体（agent）任务中的推理与工具调用对齐问题。基于togethercomputer/CoderForge-Preview原始数据，该子集精选316条高质量轨迹，聚焦于Qwen3架构在“思考先行”（think-first）范式下的微调训练。研究动机源于前序版本（v3/v5）在评估时出现的灾难性生成失败，如输出重复的无意义字符序列。通过注入结构化推理标记<think>和OpenHands XML工具调用格式，该数据集为提升模型长上下文连贯性与工具使用能力提供了关键训练资源，对代码智能体、自我反思推理等前沿方向具有重要示范意义。

当前挑战

该数据集面临的挑战突出体现在三个方面：首先，核心领域问题在于解决大模型在智能体任务中推理与工具调用的平衡——原始Qwen3-8B模型对<think>标记存在约100%的先验偏好，但训练数据不含该结构，导致参数更新混乱、长文本能力退化，数据集需设计巧妙的格式融合策略；其次，构建过程中需将原始CoderForge轨迹（共1386条）通过确定性随机筛选出316条，并逐条重写为带<think>块的OpenHands XML格式，同时保持奖励分数filtered_reward1的筛选标准，数据清洗与格式转换复杂度高；此外，如何确保该子集在有限规模下仍能引导模型摆脱先验偏差、维持泛化性，也是评估与迭代中的关键挑战。

常用场景

经典使用场景

CoderForge-Preview-v6-316数据集专为代码生成与代理任务中的监督微调（SFT）而设计，其核心应用场景在于训练大型语言模型（LLM）以原生支持OpenHands XML格式的工具调用与思考链推理。该数据集将Together Computer的CoderForge Preview轨迹数据，通过注入<think>REASONING</think>思考块与<function=NAME>结构化工具调用，转化为与Qwen3架构兼容的think-first格式。这一精妙的设计使得模型能够在数学推理、软件工程任务（如SWE-Bench基准）以及复杂的多步骤代理交互中，显式地学习在生成行动前进行内部推理，从而显著提升长上下文环境下的决策连贯性与执行准确性。

实际应用

在实际应用中，该数据集被广泛用于训练能够自主执行软件工程任务的编码代理，例如自动化代码调试、仓库级代码修改与系统命令执行。基于该数据集微调的模型可无缝集成到OpenHands等开发环境中，直接以XML格式调用bash命令、文件编辑和代码搜索等工具，实现对复杂编程任务的端到端完成。此外，其think-first格式天然适用于需要链式推理的智能体场景，包括自动化测试生成、软件部署脚本编写以及多模态代码审查，显著降低了人工编写工具调用逻辑的门槛，提升了AI代理在真实开发工作流中的实用性与可靠性。

衍生相关工作

围绕CoderForge-Preview-v6-316衍生出了一系列重要的后续工作与研究范式。在数据集构建层面，其创新的think-first格式与OpenHands XML工具调用协议，为Axolotl等微调框架中的损失掩码设计（message_field_training机制）提供了参考实现。在模型评估方面，配套的openhands_ctx32k_eval_基准配置，推动了针对长上下文代理能力（如32K token窗口下的持续工具交互）的标准化评测体系的建立。更深远地，该数据集对<think>块注入策略的成功探索，启发了后续工作在代理数据合成中系统性加入推理轨迹与工具响应对齐的研究方向，成为强化学习与监督微调混合训练范式的关键数据里程碑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集