JOSIE-Zero-8B-Reasoning-Traces-N67
收藏Hugging Face2026-05-29 更新2026-05-30 收录
下载链接:
https://huggingface.co/datasets/mlx-community/JOSIE-Zero-8B-Reasoning-Traces-N67
下载链接
链接失效反馈官方服务:
资源简介:
JOSIE-Zero-Reasoning-Traces-N67是一个高质量的合成推理轨迹数据集,专为训练具备推理能力的语言模型而设计。该数据集由JOSIE-ZERO-8B模型生成,该模型通过基于MLX-LM-LoRA框架的GRPO(组相对策略优化)训练流程进行优化,并使用了旨在鼓励显式推理、思维链式问题解决、自我纠正和结构化分析行为的自定义奖励函数。数据集包含67个样本,每个样本由提示(prompt)、推理过程(reasoning)和最终答案(answer)组成,以JSON格式存储。推理过程展示了模型在得出最终答案前的完整多步分析链条。数据规模方面,总推理令牌数为226,271,总令牌数为234,183,平均每个样本包含3,443个令牌,最长的推理链超过11,000个令牌,数据集整体偏向于长形式、详细的推理演示。该数据集主要适用于冷启动监督微调(SFT),为推理模型在进入强化学习阶段(如GRPO、PPO、DPO、RLHF)之前提供初始训练数据。其他推荐用途包括:推理行为蒸馏到较小模型、改进多步推理能力的长思维链训练、以及对涌现推理、长上下文行为、推理令牌效率和RL生成推理轨迹的研究。由于推理链较长,建议使用至少16k(推荐32k+)令牌的上下文窗口进行训练。需要注意的是,数据集中的推理轨迹是合成生成的,推理质量可能因样本而异,且不保证事实正确性。该数据集规模相对较小(67个样本),应被视为推理引导资源而非全面的指令数据集。
JOSIE-Zero-Reasoning-Traces-N67 is a high-quality synthetic reasoning traces dataset designed for training language models with reasoning capabilities. The dataset is generated by the JOSIE-ZERO-8B model, which is optimized through a GRPO (Group Relative Policy Optimization) training process based on the MLX-LM-LoRA framework, using custom reward functions that encourage explicit reasoning, chain-of-thought problem-solving, self-correction, and structured analysis behaviors. The dataset contains 67 samples, each consisting of a prompt, a reasoning process, and a final answer, stored in JSON format. The reasoning process demonstrates the complete multi-step analysis chain before arriving at the final answer. In terms of data scale, the total reasoning tokens are 226,271, total tokens are 234,183, with an average of 3,443 tokens per sample, and the longest reasoning chain exceeds 11,000 tokens, making the dataset overall biased towards long-form, detailed reasoning demonstrations. This dataset is primarily suitable for cold-start supervised fine-tuning (SFT), providing initial training data for reasoning models before entering reinforcement learning stages (such as GRPO, PPO, DPO, RLHF). Other recommended uses include: distilling reasoning behaviors into smaller models, long chain-of-thought training to improve multi-step reasoning capabilities, and research on emergent reasoning, long-context behavior, reasoning token efficiency, and RL-generated reasoning traces. Due to the long reasoning chains, it is recommended to use a context window of at least 16k (preferably 32k+) tokens for training. It should be noted that the reasoning traces in the dataset are synthetically generated, reasoning quality may vary by sample, and factual correctness is not guaranteed. The dataset is relatively small (67 samples) and should be considered as a reasoning guidance resource rather than a comprehensive instruction dataset.
提供机构:
MLX Community
创建时间:
2026-05-29
原始信息汇总
数据集名称
JOSIE-Zero-Reasoning-Traces-N67
许可证
Apache-2.0
语言
英语
任务类别
- 文本生成
- 问答
数据集规模
少于 1,000 个样本(实际 67 个样本)
数据集概述
该数据集包含由 JOSIE-ZERO-8B 模型生成的推理轨迹,格式为“提示-推理-答案”三元组。推理过程包含模型在得出最终答案前的完整推理链,旨在为具备推理能力的语言模型提供冷启动监督微调 (Cold Start SFT) 数据。
生成管道
推理轨迹由 JOSIE-ZERO-8B 模型生成,该模型通过以下方式训练:
- GRPO (Group Relative Policy Optimization) 强化学习
- 自定义奖励函数,重点关注:
- 推理深度
- 自我验证与诚实性
- 多步问题求解
- 最终答案正确性
生成的轨迹比标准指令微调模型具有更长、更详细的推理链。
推荐用途
- 冷启动 SFT:在 RL 训练前,训练基础模型生成显式推理轨迹
- 推理蒸馏:将推理行为蒸馏到更小的模型中
- 长链思维训练:提升多步推理能力
- 研究:可用于研究涌现推理、长上下文行为、推理 token 效率以及 RL 生成的推理轨迹
数据集统计
| 指标 | 值 |
|---|---|
| 样本数量 | 67 |
| 原始推理 Token 总数 | 226,271 |
| 所有样本总 Token 数 | 234,183 |
| 最大 Token 数 | 11,033 |
| 最小 Token 数 | 659 |
| 每个样本平均 Token 数 | 3,443 |
数据分布有意偏向长文本推理,适合长上下文微调、推理 SFT 和思维链蒸馏。
数据格式
每个样本包含三个字段:
prompt:问题或指令reasoning:完整的推理过程链answer:最终答案
示例 schema (JSON): json { "prompt": "Solve the following problem...", "reasoning": "First, lets analyze...", "answer": "The final answer is ..." }
训练建议
- 训练阶段:冷启动 SFT、推理 SFT、蒸馏训练
- 上下文长度:推理轨迹可能超过 11,000 个 token,建议至少使用 16k 的上下文窗口,32k+ 更佳
- 适用场景:推理型 LLM、数学推理模型、智能体基础模型、RL 预热模型、长上下文助手
局限
- 推理轨迹由 AI 模型合成生成,质量因样本而异
- 数据集规模较小(仅 67 个样本)
- 生成的推理不保证事实正确性
- 应视为推理引导资源,而非全面的指令数据集
致谢
由 Gökdeniz Gülmez 创建,使用以下工具生成:
- JOSIE-ZERO-8B
- MLX-LM-LoRA
- GRPO 训练管道
- 自定义奖励函数
引用
bibtex @dataset{josie_zero_reasoning_traces_n67, title={JOSIE-Zero-Reasoning-Traces-N67}, author={Gülmez, Gökdeniz}, year={2026}, publisher={Hugging Face} }
许可证
请参考仓库许可证了解使用和重新分发的条款。
搜集汇总
数据集介绍

构建方式
该数据集由JOSIE-ZERO-8B模型生成,该模型基于MLX-LM-LoRA框架,采用GRPO强化学习训练管道进行优化。训练过程中引入了自定义奖励函数,重点鼓励推理深度、自我验证与诚实性、多步问题求解以及最终答案的正确性。数据构建流程旨在产出结构化、长链式的分析轨迹,包含从提示到推理过程再到最终答案的完整三元组,每个样本均记录了模型在得出答案前的全部推理链条。
使用方法
建议在训练初期作为冷启动监督微调数据使用,以引导基础模型生成显式推理轨迹,为后续强化学习阶段(如GRPO、PPO、DPO)提供初始行为基础。也可用于推理知识蒸馏,将长链推理能力迁移至较小模型。鉴于推理轨迹长度可达11k令牌,建议上下文窗口至少设为16k令牌,32k以上更佳,适用于构建推理型大语言模型、数学推理模型及智能体基础模型。
背景与挑战
背景概述
在大型语言模型推理能力的研究中,强化学习与链式思维训练的融合已成为提升模型复杂问题求解能力的关键路径。JOSIE-Zero-8B-Reasoning-Traces-N67数据集由研究者Gökdeniz Gülmez于2026年创建,旨在为推理型语言模型提供高质量的冷启动监督微调(SFT)数据。该数据集基于JOSIE-ZERO-8B模型通过GRPO(群体相对策略优化)训练管道生成,结合自定义奖励函数以鼓励深度推理、自验证与多步求解,其平均每个样本包含超过3000个推理令牌,特别适用于长上下文微调、推理蒸馏及链式思维训练。该数据集虽规模较小(67个样本),但在推理模型开发中作为初始SFT数据具有独特价值,填补了从基础模型到强化学习阶段之间的数据鸿沟,为研究涌现推理、长上下文行为及推理令牌效率提供了实证基础。
当前挑战
该数据集所面临的核心挑战在于其合成推理轨迹的内在局限与数据规模间的平衡。领域问题层面,尽管链式思维训练能显著增强模型的显式推理能力,但合成数据固有的推理质量波动与事实正确性不足可能误导模型学习次优策略,尤其当推理链长度超过11k令牌时,长上下文下的注意力分散与错误传播风险增加。构建过程中,生成轨迹依赖单一模型与自定义奖励函数,缺乏多源验证与人类标注校正,导致样本多样性受限且泛化能力存疑。此外,仅有67个样本的小规模数据难以支撑复杂推理模式的全面覆盖,容易引发过拟合,且对于冷启动SFT后的强化学习阶段,这些合成轨迹是否会引入系统性偏见仍是未解难题。数据集的规模与合成性质共同制约了其在真实世界推理任务中的鲁棒性与可迁移性。
常用场景
经典使用场景
JOSIE-Zero-8B-Reasoning-Traces-N67数据集的核心应用在于为推理型语言模型提供冷启动监督微调(Cold Start SFT)的初始训练数据。该数据集包含由JOSIE-ZERO-8B模型生成的67条高质量推理轨迹,每条轨迹均以“提示-推理过程-最终答案”的结构呈现,推理链条冗长而细密,平均长度达3443个token,最大超过11000个token。这些数据特别适合用于训练基础模型生成显式推理路径,使其从起步阶段便具备链式思维(Chain-of-Thought)能力,为后续强化学习阶段(如GRPO、PPO、DPO、RLHF)提供优质的初始化权重。在长上下文微调、推理蒸馏和合成推理研究等方向,该数据集亦展现出极高的适配性。
解决学术问题
该数据集精准回应了当前大语言模型研究中两个核心学术难题:一是如何让模型生成结构化的、自纠正的多步推理过程,而不仅仅是表面答案;二是如何为强化学习驱动的推理训练提供高质量的冷启动数据。传统指令微调数据集往往只关注最终输出,缺乏对中间推理链条的刻意构建,导致模型在复杂数学、逻辑推理任务中表现脆弱。该数据集通过GRPO管道和自定义奖励函数生成深度推理轨迹,解决了推理链长度不足、自验证缺失、推理模式单一等关键问题。其意义在于,它为推理模型的开发提供了一条可复现的“合成推理数据→冷启动SFT→强化学习优化”的全链路方案,并推动了长上下文推理行为和推理token效率等新兴研究方向的发展。
实际应用
在实际产业应用中,该数据集被广泛用于构建具备复杂问题解决能力的推理型语言模型,尤其适用于数学推理模型、智能体基础模型和长上下文助手的冷启动训练。开发者可利用这些高密度推理轨迹对基础模型进行SFT微调,使其快速习得结构化分析、自我纠错和多步骤解题的行为模式。在模型蒸馏场景中,大型教师模型产出的推理行为可通过该数据集压缩至更小的学生模型中,从而在部署成本受限的边缘设备上实现接近大模型的推理质量。此外,该数据集还可作为RL训练前的预热数据,显著提升强化学习阶段的收敛速度与最终表现,为AI客服系统、教育辅导平台、自动化代码调试工具等实际产品提供更透明的决策链条。
数据集最近研究
最新研究方向
当前,基于强化学习算法(如GRPO)与大语言模型深度结合的推理能力增强研究正成为前沿热点。JOSIE-Zero-8B-Reasoning-Traces-N67数据集聚焦于通过定制化奖励函数驱动模型生成结构化、长篇幅的链式推理轨迹,为冷启动监督微调(SFT)和推理蒸馏提供高质量样本。该数据集在仅有67个样本的情况下,平均每个推理轨迹包含约3443个token,最长可达11033个token,特别适用于探索长上下文环境下的推理行为涌现、推理token效率优化以及自我验证机制的有效性。其生成管线融合了GRPO强化学习与MLX-LM-LoRA框架,代表了从标准指令微调向深度分析型推理模型转变的重要技术路径,对于推动数学推理、智能体基础模型及长上下文助手的研发具有显著的示范意义与实用价值。
以上内容由遇见数据集搜集并总结生成



