instruction-following-reasoning-traces

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/haritzpuerto/instruction-following-reasoning-traces

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练可控推理模型的监督微调（SFT）数据，旨在教导大型推理模型遵循针对其推理轨迹（RTs）和/或最终答案（FAs）的明确指令。数据基于GSM8K数学应用题（训练集）和DeepSeek-R1生成的推理轨迹，通过GPT-120B重写以遵循特定指令。每个样本以对话形式（`messages`）呈现，包含用户消息（原始问题及指令）和助手消息（遵循指令的推理轨迹及最终答案）。数据集分为三个逐步增大的子集：`rt_only`（999例，仅RT指令）、`rt_or_fa_only`（1998例，RT或FA指令）和`rt_and_fa`（3998例，RT和FA指令）。适用于可控推理和上下文隐私研究，但存在规模小、领域单一（仅数学）及指令为合成生成等局限性。

创建时间：

2026-02-20

原始信息汇总

数据集概述

数据集简介

该数据集包含用于训练可控推理模型的监督微调数据，旨在教导大型推理模型遵循针对其推理轨迹的明确指令，并可选择性地针对其最终答案。

数据来源与构建

基础问题：基于GSM8K数学应用题（训练集分割）。
推理轨迹来源：基于来自"yashsavani/gsm8k_r1_compute"的DeepSeek-R1模型生成的推理轨迹。
指令重写：使用gptoss-120B模型将推理轨迹重写以遵循针对RT的特定指令。
指令文件：https://huggingface.co/datasets/haritzpuerto/instruction-following-reasoning-traces/blob/main/instructions.json

数据格式

每个样本都被格式化为对话形式，适用于聊天风格的监督微调：

用户消息：包含原始问题以及描述应如何撰写推理轨迹和/或最终答案的指令。
助手消息：包含遵循该指令的推理轨迹及相应的最终答案。

数据集结构

特征

messages：聊天消息列表，每条消息包含：
- content：消息文本。
- role："user"或"assistant"。

数据分割

数据集分为三个逐步增大的分割，每个分割都包含前一个分割的内容：

rt_only
- 样本数量：999
- 指令仅适用于推理轨迹。
rt_or_fa_only
- 样本数量：1998
- 扩展rt_only，增加指令适用于推理轨迹或最终答案（但不同时适用于两者）的样本。
rt_and_fa
- 样本数量：3998
- 扩展rt_or_fa_only，增加指令同时约束推理轨迹和最终答案的样本。

预期用途

主要用途：训练或微调推理模型，使其在内部推理轨迹和/或最终答案中遵循明确指令。
本仓库用途：用于专门在以下方面进行LoRA适配器的监督微调：
- 推理轨迹中的指令遵循。
- 最终答案中的指令遵循。
- 或两者之间的平衡。
适用场景：该数据集旨在用于可控推理和上下文隐私的研究，不适用于直接在生产系统中部署。

已知限制

总训练集规模较小，可能导致过拟合，且可能无法涵盖真实世界指令的完整多样性。
所有基础问题均来自GSM8K，因此仅在此数据上训练的模型可能无法泛化到其他领域。
指令是合成的，可能限制其自然性。

引用信息

bibtext @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }

许可信息

许可证：MIT

搜集汇总

数据集介绍

构建方式

在数学推理领域，为探究大型模型对显式指令的遵循能力，该数据集以GSM8K数学应用题训练集为基础，结合DeepSeek-R1生成的推理轨迹，通过GPT-4o-120B模型进行指令重写构建而成。其核心流程在于将原始问题与针对推理轨迹或最终答案的特定指令组合为用户消息，并生成符合指令要求的助理回复，形成对话格式的监督微调数据。

特点

该数据集在结构设计上呈现出层次化的指令覆盖特性，通过三个渐进式数据子集——仅含推理轨迹指令、推理轨迹或最终答案指令、以及两者兼有的指令——系统性地扩展了指令约束的复杂度。每个样本均以标准化对话消息格式呈现，确保了与聊天式微调框架的兼容性，同时其指令体系来源于合成生成，专注于数学领域内的可控推理行为建模。

使用方法

该数据集主要服务于可控推理与上下文隐私方面的研究，适用于训练或微调专长于遵循推理轨迹指令、最终答案指令或两者平衡的模型适配器。在实际应用中，研究者可依据具体实验目标选取相应数据子集，将其整合至监督微调流程，以增强模型对内部推理过程的指令响应能力，但需注意其规模与领域局限性，避免直接部署于生产环境。

背景与挑战

背景概述

在人工智能领域，提升大型语言模型推理过程的可控性与透明度已成为核心研究议题。instruction-following-reasoning-traces数据集应运而生，由Haritz Puerto等研究人员于2026年构建，旨在探索如何通过显式指令精确调控模型在数学问题求解中的推理轨迹与最终答案。该数据集基于GSM8K数学应用题训练集，并利用DeepSeek-R1生成的推理轨迹，通过大语言模型重写技术构建指令遵循样本。其核心研究聚焦于可控推理与上下文隐私保护，为训练具备指令遵循能力的专业推理模型提供了高质量监督微调数据，推动了可解释人工智能与隐私增强计算的前沿交叉研究。

当前挑战

该数据集致力于解决复杂推理任务中模型内部思维链的可控生成问题，其核心挑战在于如何设计泛化性强的指令体系，以覆盖多样化的推理模式与隐私保护需求。在构建过程中，研究人员面临多重挑战：数据集规模较小，仅包含约三千条样本，可能导致模型过拟合并限制其对未知指令的泛化能力；数据源领域单一，完全依赖GSM8K数学问题，制约了模型向其他学科领域的迁移性能；指令生成依赖合成方法而非人工标注，可能影响指令的自然性与实际应用场景的匹配度。这些结构性局限对构建鲁棒且通用的可控推理模型提出了持续挑战。

常用场景

经典使用场景

在自然语言处理领域，指令遵循推理轨迹数据集为可控推理模型的研究提供了关键训练资源。该数据集基于GSM8K数学应用题训练集构建，通过模型生成推理轨迹并利用大语言模型重写，形成对话格式的监督微调数据。其经典使用场景在于训练大型推理模型遵循针对推理轨迹和最终答案的显式指令，例如要求模型以特定风格或结构输出推理步骤，从而实现对模型内部思维过程的精细化控制。

解决学术问题

该数据集主要解决了可控推理与上下文隐私保护领域的核心学术问题。通过提供带有明确指令约束的推理轨迹数据，它使研究者能够探索模型在遵循复杂指令时的行为可预测性与鲁棒性，同时为研究模型推理过程的隐私泄露风险提供了实验基础。其意义在于推动了从黑箱推理向透明可控推理的范式转变，为理解模型内部工作机制开辟了新途径。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在可控推理模型的架构设计与评估框架上。例如，研究者开发了专门针对推理轨迹指令遵循的LoRA适配器，并提出了平衡推理轨迹与最终答案指令遵循的多任务训练策略。这些工作扩展了指令微调技术在复杂推理任务中的应用边界，为后续研究模型泛化能力与跨领域适应性奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成