controlling-reasoning-models-privacy-outputs

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/haritzpuerto/controlling-reasoning-models-privacy-outputs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含论文《Controllable Reasoning Models are Private Thinkers》中描述的实验中产生的原始模型生成结果（推理轨迹和最终答案）。数据集汇总了以下内容的输出：两个模型家族（Qwen 3和Phi 4）、多个模型尺寸（1.7B–14B）、每个模型的五个变体（基线、RT-IF优化、FA-IF优化、整体-IF优化和提出的分阶段解码方法）、四个基准测试（IFEval、Math-IF、PasswordEval和PEEP）以及每个检查点和基准测试的两个随机种子。对于每个评估示例，数据集存储了完整的推理轨迹（RT）和最终答案（FA），以及标识基准实例和生成变体的元数据。这些输出是计算论文中报告的所有指令遵循、隐私和效用指标的基础。主要用途是重现和扩展论文中的分析，包括重新计算指令遵循指标（IF-RT、IF-FA）、重新计算PasswordEval和PEEP上的隐私和效用指标，以及对RT和FA进行额外的定性或定量分析。建议将其用作评估和分析资源，而非训练数据集。生成设置遵循论文中描述的实验设置，包括使用vLLM进行高效推理、大多数模型使用4位量化加载（通过Unsloth或bitsandbytes）、每个模型和变体在所有基准测试上运行两个种子并汇总结果为均值±标准差。分阶段解码通过首先生成RT（使用针对IF-RT优化的LoRA权重），然后切换到针对IF-FA优化的LoRA权重生成最终答案来实现。

创建时间：

2026-02-23

原始信息汇总

数据集概述

数据集描述

本数据集包含论文《Controllable Reasoning Models are Private Thinkers》中所述实验所产生的原始模型生成内容（推理轨迹和最终答案）。它汇总了以下内容的输出：

两个模型系列：Qwen 3 和 Phi 4。
多个模型规模（1.7B–14B）。
每个模型的五个变体（基线、RT-IF优化、FA-IF优化、整体-IF优化以及提出的分阶段解码方法）。
四个基准测试：IFEval、Math-IF、PasswordEval 和 PEEP。
每个检查点和基准测试的两个随机种子。

对于每个评估示例，数据集存储了完整的推理轨迹（位于思考标记之间）和最终答案，以及标识生成该输出的基准测试实例和模型变体的元数据。这些输出是计算论文中报告的所有指令遵循、隐私和效用指标的基础。

预期用途

主要用途：通过以下方式复现和扩展论文中的分析：
- 重新计算指令遵循指标（IF-RT, IF-FA）。
- 在 PasswordEval 和 PEEP 上重新计算隐私和效用指标。
- 对推理轨迹和最终答案进行额外的定性或定量分析。
推荐用法：作为评估和分析资源。不建议用作训练数据集。

生成设置

生成遵循 paper/sections/experimental_setup.tex 和 paper/appendix/malformed_outputs.tex 中描述的设置：

使用 vLLM 进行推理以提高效率。
大多数模型使用 4位量化（通过 Unsloth 或 bitsandbytes）加载，除非另有说明。
对于每个模型和变体：
- 在所有基准测试上进行评估。
- 每个基准测试运行两个种子，并将结果汇总为平均值±标准差。
分阶段解码通过以下方式实现：
- 首先使用为 IF-RT 优化的 LoRA 权重生成推理轨迹。
- 然后切换到为 IF-FA 优化的 LoRA 权重来生成最终答案。

引用

bibtex @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }

搜集汇总

数据集介绍

构建方式

在可控推理模型的研究框架下，该数据集通过系统化的实验设计构建而成。研究团队选取了Qwen 3和Phi 4两大模型家族，涵盖从1.7B到14B的多种参数规模，并为每个模型配置了基线版本、三种指令遵循优化变体以及提出的分阶段解码方法。实验在IFEval、Math-IF、PasswordEval和PEEP四个基准测试上进行，每个检查点与基准组合均采用两个随机种子以确保结果的稳健性。生成过程依托vLLM实现高效推理，多数模型加载时应用了4位量化技术，分阶段解码则通过切换针对推理轨迹和最终答案分别优化的LoRA权重来完成。

特点

该数据集的核心特征在于其全面覆盖了模型在隐私与指令遵循权衡下的输出行为。它完整记录了每次评估所产生的推理轨迹与最终答案，并附带了详尽的元数据，包括模型变体、基准实例和随机种子等信息。数据内容直接支撑了论文中所有指令遵循度、隐私性与效用指标的量化计算。作为一项分析资源，数据集不仅便于复现原有实验，更为深入探究模型推理过程的内部机制、进行定性分析或开发新的评估指标提供了结构化基础。

使用方法

数据集主要服务于学术研究与分析目的，旨在支持对可控推理模型隐私属性的深入探索。使用者可基于存储的原始生成内容，重新计算论文中定义的指令遵循指标、隐私与效用指标，从而验证或拓展原有结论。此外，研究人员能够对推理轨迹进行细致的定性分析，或设计新的定量评估方法。需要明确的是，该数据集专为评估与分析设计，并不建议用作训练数据，以确保其服务于模型行为诊断与机制理解的初衷。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLMs）的推理能力与隐私保护之间的平衡已成为前沿研究焦点。2026年，Haritz Puerto、Haonan Li、Xudong Han、Timothy Baldwin及Iryna Gurevych等研究人员在论文《Controllable Reasoning Models Are Private Thinkers》中提出了controlling-reasoning-models-privacy-outputs数据集，旨在探索可控推理模型在指令遵循、隐私及效用等多维度下的表现。该数据集汇集了Qwen 3与Phi 4两大模型家族、多种规模（1.7B至14B参数）及五种变体（包括基线、优化版本及提出的分阶段解码方法）在IFEval、Math-IF、PasswordEval和PEEP四个基准测试上的原始生成输出，为评估模型推理轨迹与最终答案的隐私性提供了关键数据支撑，推动了可解释人工智能与隐私计算交叉领域的发展。

当前挑战

该数据集致力于解决可控推理模型在隐私保护与指令遵循之间的权衡挑战，核心问题在于如何确保模型在生成详细推理过程的同时避免泄露敏感信息。构建过程中面临多重困难：一方面，需设计严谨的实验框架以覆盖多样化的模型变体、基准测试及随机种子，确保生成数据的全面性与可复现性；另一方面，分阶段解码等创新方法的实施要求精细调整LoRA权重，并处理量化推理等技术细节，增加了数据采集的复杂度。此外，数据集作为评估资源而非训练数据，其结构化存储与元数据标注需兼顾高效访问与精确分析，这对数据组织与标准化提出了较高要求。

常用场景

经典使用场景

在大型语言模型的可控性与隐私保护研究领域，该数据集作为核心评估资源，为分析推理模型的行为提供了丰富素材。研究者通过提取数据集中的原始生成内容，包括推理轨迹和最终答案，能够系统评估不同模型变体在指令遵循、隐私泄露及效用保持等方面的表现。典型应用涉及在多个基准测试上复现实验，以验证模型优化方法的有效性，从而推动可控推理技术的深入探索。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在可控推理与隐私保护的交叉研究。例如，基于其提供的多阶段解码输出，后续研究提出了更高效的参数微调方法，以平衡指令遵循与隐私约束。同时，该数据集也激发了针对推理轨迹可解释性的新评估框架，推动了隐私感知型语言模型架构的创新。

数据集最近研究