Instruction-following dataset with explicit restrictions on reasoning traces
收藏arXiv2026-02-28 更新2026-03-03 收录
下载链接:
https://github.com/UKPLab/arxiv2026-controllable-reasoning-models
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由达姆施塔特工业大学等机构联合构建,旨在提升推理模型对指令的遵循能力,特别是在推理轨迹中保护隐私信息。数据集包含3000条示例,基于GSM8K训练集的DeepSeek-R1模型输出重构而成,涵盖格式化、风格和推理类型三类指令。通过GPT-120B重写推理轨迹以符合随机指令,形成监督学习样本。其应用聚焦于隐私保护领域,通过增强模型对推理过程的控制力,减少敏感信息在AI代理中的泄露风险。
Constructed jointly by Technische Universität Darmstadt and other institutions, this dataset is developed to enhance the instruction-following capabilities of reasoning models, particularly in safeguarding private information within reasoning trajectories. It contains 3000 examples reconstructed from the model outputs of DeepSeek-R1 on the GSM8K training set, covering three categories of instructions: formatting, style, and reasoning type. Reasoning trajectories are rewritten by GPT-120B to align with random instructions, thereby creating supervised learning samples. Its applications focus on the privacy protection domain: by strengthening the model's control over the reasoning process, it mitigates the risk of sensitive information leakage in AI Agents.
提供机构:
达姆施塔特工业大学·普适知识处理实验室; 穆罕默德·本·扎耶德人工智能大学; LibrAI
创建时间:
2026-02-28
原始信息汇总
数据集概述
基本描述
该数据集是论文《Controllable Reasoning Models Are Private Thinkers》的配套资源,包含用于训练和评估可控推理模型的代码与实验流程。其核心目标是研究如何训练大型推理模型,使其推理轨迹能够遵循指令,从而在保持任务效用的同时,根据隐私规范指令减少上下文隐私泄露。
核心内容
- 研究目标:提升大型推理模型在推理轨迹和最终答案中的指令遵循行为,并研究其如何改善上下文隐私。
- 核心方法:通过显式指令训练模型如何推理,并采用分阶段解码策略,将推理轨迹生成与最终答案生成分离。
- 项目提供:
training/:通过Unsloth + TRL进行微调的代码,用于获得遵循指令的推理模型。inference/:使用vLLM在多个基准测试上生成推理轨迹和最终答案的推理流程。evaluation/:用于指令遵循和上下文隐私基准测试(MathIF、IFEval、PEEP和PasswordEval)的评估脚本。
数据集与基准
项目使用并评估了多个现有数据集和基准测试,包括:
- MathIF:用于数学推理的指令遵循评估。
- IFEval:用于通用指令遵循评估。
- PasswordEval:专注于密码泄露的上下文隐私基准测试。
- PEEP:通用任务的隐私评估基准。
使用方式
项目提供了端到端的示例脚本,涵盖以下流程:
- 模型训练:使用指令遵循思维链数据集对模型进行微调。
- 推理生成:在评估基准上运行推理,生成推理轨迹和最终答案。
- 评估计算:计算论文中报告的指令遵循和上下文隐私指标。
资源链接
- 论文地址:https://arxiv.org/abs/2602.24210
- Hugging Face模型集:https://huggingface.co/collections/haritzpuerto/controllable-reasoning-models-checkpoints
- Hugging Face数据集集:https://huggingface.co/collections/haritzpuerto/controllable-reasoning-models-datasets
- 训练数据集示例:
haritzpuerto/instruction-following-reasoning-traces
引用信息
若使用此代码或任何发布的模型或数据,请引用: bibtex @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }
搜集汇总
数据集介绍
构建方式
在构建具有明确推理轨迹限制的指令遵循数据集时,研究团队以DeepSeek-R1在GSM8K训练集上的输出为基础,提取原始推理轨迹后,利用大型语言模型GPT-4o-120B对轨迹进行重写,使其符合随机采样的指令约束。这些指令涵盖格式、风格与推理类型三大类别,旨在精确控制模型推理过程的结构与内容。重写后的推理轨迹与原始最终答案配对,并与指令一同附加于原问题末尾,形成监督学习样本。数据集采用渐进式扩展策略,依次构建仅针对推理轨迹的指令、针对推理轨迹或最终答案的指令,以及同时针对两者的指令三个子集,规模从1k逐步增至3k样本,确保了指令类型的多样性与层次性。
使用方法
该数据集主要用于通过监督微调训练大型推理模型,以提升其在推理轨迹中对复杂指令的遵循能力。在实践中,研究者采用LoRA适配器进行参数高效微调,并引入了分阶段解码策略:首先生成推理轨迹时加载针对推理轨迹指令遵循优化的LoRA权重,随后在生成最终答案前切换至针对最终答案指令遵循优化的LoRA权重。这种解耦生成机制使得模型能够在不显著增加计算开销的前提下,同时优化推理轨迹与最终答案的指令遵循表现。经过训练与分阶段解码的模型,可在通用指令遵循评测与隐私评测中展现出同步提升,为开发隐私感知的智能体系统提供了关键技术基础。
背景与挑战
背景概述
随着大型语言模型(LLM)在智能代理中的广泛应用,模型推理过程中可能泄露用户敏感信息的问题日益凸显。由德国达姆施塔特工业大学Ubiquitous Knowledge Processing实验室与Mohamed bin Zayed人工智能大学等机构的研究团队于2026年提出的‘推理轨迹显式限制指令跟随数据集’,旨在通过监督微调提升模型在推理轨迹中对指令的遵循能力,从而增强上下文隐私保护。该数据集聚焦于大型推理模型(LRM)在完成用户任务时,其内部推理轨迹可能无意中包含私人数据这一核心研究问题,通过构建包含格式化、风格与推理类型指令的多样化样本,为可控推理模型的发展提供了关键训练资源,推动了隐私感知智能代理的研究方向。
当前挑战
该数据集致力于解决大型推理模型在隐私保护领域的核心挑战,即模型在生成推理轨迹时难以遵循用户关于隐私约束的指令,导致敏感信息泄露。构建过程中的主要挑战包括:如何设计多样化的指令类型以全面覆盖推理轨迹的控制需求;如何基于现有数学推理数据集生成符合指令的改写样本,同时保持任务正确性;以及如何平衡模型在推理轨迹与最终答案两方面的指令跟随性能,避免优化一方时损害另一方。此外,数据集的规模有限可能引发过拟合,且指令跟随能力的提升常以任务效用下降为代价,这一权衡关系构成了模型实际部署中的重要障碍。
常用场景
经典使用场景
在大型推理模型(LRMs)日益成为AI代理核心组件的背景下,该数据集被设计用于训练模型在推理轨迹(reasoning traces)中遵循用户指令。其经典使用场景在于通过监督微调(SFT)提升模型对推理过程的控制能力,特别是在格式化、风格和推理类型等指令约束下生成合规的思维链。例如,在数学问题求解任务中,模型不仅需要得出正确答案,还需按照要求以特定格式(如LaTeX或对话形式)呈现推理步骤,从而验证其指令遵循的鲁棒性。
解决学术问题
该数据集主要解决了大型推理模型中推理轨迹缺乏可控性所导致的隐私泄露问题。传统研究多关注最终答案的指令遵循,而忽视了推理过程中的隐私风险,使得模型易在思维链中暴露敏感信息。通过提供带有显式约束的指令跟随数据,该工作首次系统性地探索了如何通过提升推理轨迹的指令遵循能力来增强模型的上下文隐私保护。这为构建隐私感知的AI代理提供了理论基础,并揭示了指令遵循与隐私性能之间的正向关联。
实际应用
在实际应用中,该数据集支撑的模型可部署于需要处理敏感信息的AI代理场景,如智能客服、个人助理或医疗咨询系统。例如,在餐厅预订任务中,模型能够遵循隐私指令,避免在推理轨迹中泄露用户的电话号码或婚姻状况等非必要信息,从而抵御恶意提示注入攻击。这种能力使得基于LRM的代理在金融、医疗等隐私敏感领域的安全部署成为可能,降低了数据泄露风险并符合日益严格的隐私监管要求。
数据集最近研究
最新研究方向
在大型语言模型作为智能代理日益普及的背景下,推理模型在处理敏感用户数据时的隐私泄露问题成为关键挑战。近期研究聚焦于提升模型在推理轨迹中对指令的遵循能力,以此作为增强上下文隐私的新途径。通过构建包含明确推理轨迹约束的指令跟随数据集,并引入分阶段解码策略,研究证实强化模型对推理过程的控制能有效降低私有信息在思考环节的意外泄露。这一方向将可控推理与隐私保护相结合,为开发隐私感知的智能代理系统提供了理论基础与实践方法,标志着人工智能安全领域从单纯关注输出结果向监管内部推理过程的重要演进。
相关研究论文
- 1Controllable Reasoning Models Are Private Thinkers达姆施塔特工业大学·普适知识处理实验室; 穆罕默德·本·扎耶德人工智能大学; LibrAI · 2026年
以上内容由遇见数据集搜集并总结生成



