CoderForge-Preview-v6-1000
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://huggingface.co/datasets/laion/CoderForge-Preview-v6-1000
下载链接
链接失效反馈官方服务:
资源简介:
laion/CoderForge-Preview-v6-1000是一个基于togethercomputer/CoderForge-Preview数据集的子集,专为Qwen3兼容的think-first OpenHands-XML线格式设计。该数据集的主要目的是通过在每个助手回合开始时注入<think>REASONING</think>块,以解决预训练模型在评估时产生垃圾输出(如8888..., 0.0.0.0...)的问题。数据集包含1,000行数据,每行数据采用JSON格式,包含轨迹ID、奖励值、数据来源和消息列表。消息列表中的每条消息都有角色(如系统、用户、助手)、内容和训练标志。助手消息包含一个<think>块和后续的OpenHands XML工具调用。数据集适用于文本生成任务,特别是与工具调用和推理相关的场景。
laion/CoderForge-Preview-v6-1000 is a subset of the togethercomputer/CoderForge-Preview dataset, specifically designed for the Qwen3-compatible think-first OpenHands-XML wire format. The primary purpose of this dataset is to address the issue of pretrained models generating garbage outputs (e.g., 8888..., 0.0.0.0...) during evaluation by injecting a <think>REASONING</think> block at the beginning of each assistant turn. The dataset contains 1,000 rows of data, each in JSON format, including a trajectory ID, reward value, data source, and a list of messages. Each message in the list has a role (e.g., system, user, assistant), content, and a training flag. Assistant messages include a <think> block followed by subsequent OpenHands XML tool calls. The dataset is suitable for text generation tasks, particularly those involving tool calls and reasoning scenarios.
提供机构:
LAION eV
创建时间:
2026-04-25
搜集汇总
数据集介绍

构建方式
CoderForge-Preview-v6-1000 数据集源自 togethercomputer/CoderForge-Preview 中 filtered_reward1 筛选后的 trajectories 子集,通过确定性随机采样(种子42)从全局1,386条轨迹中抽取1,000条而成。每条轨迹均经过精心重构,以适配 Qwen3 模型的优先逻辑——在每个助理轮次始端强制注入源自原始轨迹自然内容或合成推理工具的 <think>REASONING</think> 块,其后衔接原生 OpenHands XML 工具调用格式。工具观测被转化为携带 <tool_response> 标签的用户轮次,并采用 train 布尔字段精确标注每轮消息是否参与损失计算,形成了高度结构化的多轮对话形式。
特点
该数据集最显著的特征在于其对 Qwen3 模型推理偏好的精准调适。经过对 v3 和 v5 版本因缺失 <think> 块而引发的灾难性参数更新与长上下文连贯性破坏的深入分析,v6 版本通过在每个助理回复起始处嵌入推理过程,成功规避了模型天生将首个 token 分配给 <think> 的概率主导问题。数据拒绝采用 Hermes 风格的 <tool_call> 封装,转而严格遵循 OpenHands 原生 XML 工具调用协议,确保在评估时可直接利用 disable_tool_calls 配置正确解析。每条轨迹均保留原始奖励值作为质量指标,提供了简洁而有效的微调样本。
使用方法
使用该数据集进行监督微调时,推荐采用 Axolotl 框架,通过 dataset 配置项指定路径与文件名称,并将数据集类型设为 chat_template,同时将 field_messages 绑定至 messages 字段,message_field_training 指向 train 字段以实现逐轮损失掩码。在评估阶段,需配合 openhands_ctx32k_eval_.yaml 评估配置,设置 disable_tool_calls 为 true 以启用原生 XML 解析。数据集以标准 JSONL 格式发布,兼容常见训练管线,1000 条的规模既保证了数据多样性,又降低了训练资源门槛,适合在消费级硬件上进行快速的原型验证与模型调优。
背景与挑战
背景概述
CoderForge-Preview-v6-1000数据集由Together公司与LAION合作创建,发布于2025年,旨在为大语言模型在代码生成与智能体任务中的微调提供高质量训练数据。该数据集是togethercomputer/CoderForge-Preview的子集,选取了其中奖励过滤后的1000条轨迹,并针对Qwen3-8B模型进行了专门格式适配。其核心研究问题聚焦于如何通过数据格式设计解决模型在长上下文任务中的生成连贯性问题,尤其是在工具调用场景下的推理与执行一致性。该数据集采用OpenHands XML工具调用格式,并强制加入<think>推理块,以引导模型进行先推理后操作的思维模式,对提升代码智能体的实际可用性具有重要意义。作为开源数据集,它促进了代码生成、智能体训练及指令微调等领域的交叉研究,为相关工作提供了标准化的训练范例。
当前挑战
CoderForge-Preview-v6-1000数据集所解决的领域问题在于大语言模型在代码生成与智能体工具调用任务中面临的生成崩溃和上下文连贯性丧失挑战。具体表现为,模型在微调后易出现重复字符(如‘8888...’)或无效响应(如‘0.0.0.0...’),根本原因是原始训练数据缺乏推理标记,与Qwen3等模型的后训练先验产生冲突。在构建过程中,数据集面临的主要挑战包括:从1386条源数据中筛选出1000条高质量轨迹,需确保奖励信号可靠;将非结构化轨迹转换为统一的<think>推理块加OpenHands XML工具调用格式,同时保留原始助手内容的自然性;以及处理工具响应与用户消息的交替组织,确保损失掩码(train字段)正确标识需参与训练的部分,避免非监督信号干扰模型学习。
常用场景
经典使用场景
CoderForge-Preview-v6-1000 数据集是在软件工程与人工智能交叉领域中,专为提升代码生成代理(Code Agent)的推理与工具调用能力而精心构建的高质量指令微调数据集。其经典使用场景聚焦于训练大语言模型(LLM)在复杂软件开发任务中,遵循“先思考、后行动”的范式。具体而言,模型需在生成具体操作(如执行 Bash 命令、编辑文件)之前,首先生成包含详细推理过程的 `<think>REASONING</think>` 块,随后输出符合 OpenHands XML 格式的工具调用指令。该设计旨在解决标准监督微调中,模型由于缺乏显式推理步骤而导致的动作失控与长程连贯性崩塌问题,从而培养出具备规划与反思能力的自主编码代理。
解决学术问题
该数据集核心应对的学术挑战在于如何弥合预训练语言模型的后验分布偏好与下游代理任务格式之间的结构性冲突。在先前版本中,Qwen3-8B 模型对 `<think>` 标记具有接近 100% 的先验概率,而训练数据完全缺失此结构,导致微调时参数灾难性更新,模型在评估环节产生 `8888...` 或 `0.0.0.0...` 等无效重复输出。CoderForge-Preview-v6-1000 通过系统性地在每个助手轮次注入思维块,从根本上解决了分布外(OOD)引发的参数崩溃问题。其意义在于为代理式语言模型训练提供了可复现的“思维注入”技术路径,证明了结构对齐对于维持模型长上下文推理能力的必要性,推动了指令微调方法论从纯行为克隆向认知结构对齐的转变。
衍生相关工作
围绕 CoderForge-Preview-v6-1000 的构建逻辑,衍生出若干关键工作与优化方向。其前身 CoderForge-Preview 原始数据已广泛用于训练代码代理模型,而 v6 版本通过引入思维块注入方法,直接催生了针对 Qwen 系列模型代理能力恢复的研究。相关工作包括对代理日志中轨迹奖励过滤策略的分析,以及针对不同模型系列(如 Llama、DeepSeek)的类似“思维优先”格式适配器开发。此外,该数据集所采用的 OpenHands XML 工具调用格式,与 Hermes 风格封装形成对比,激励了社区探索更灵活的代理通信协议,并推动了关于“结构化推理是否优于端到端生成”的系列基准实验。这些衍生工作共同丰富了代码智能代理的训练生态。
以上内容由遇见数据集搜集并总结生成



