caiovicentino1/cotguard-minipoc-qwen36-27b

Name: caiovicentino1/cotguard-minipoc-qwen36-27b
Creator: caiovicentino1
Published: 2026-04-30 10:27:36
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/caiovicentino1/cotguard-minipoc-qwen36-27b

下载链接

链接失效反馈

官方服务：

资源简介：

CoTGuard mini-POC数据集（Phase A）是一个用于训练和评估线性探针的数据集，旨在检测Qwen3.6-27B推理模式中思维链的（不）忠实性。数据集包含（问题、提示、思维链、判断标签、残差激活）元组。Phase A的范围包括200个问题×2个提示变体=400个生成。数据集来源于多个研究，包括Anthropic、METR等，并采用了严格和宽松的标签标准。每个元组包含唯一标识符、来源、提示变体、问题、黄金标准、提示文本、提示、思维链、最终答案以及严格和宽松的判断标签。残差激活在L11/L31/L55层保存为.pt文件。数据集的设计样本量较小（N=400），Phase B将扩大5-10倍。

The CoTGuard mini-POC dataset (Phase A) is a dataset for training and evaluating linear probes to detect chain-of-thought (un)faithfulness in Qwen3.6-27B reasoning mode. It consists of (question, hint, CoT, judge_label, residual_activations) tuples. Phase A scope includes 200 questions × 2 hint variants = 400 generations. The dataset draws from multiple sources, including Anthropic, METR, etc., and employs both strict and relaxed label criteria. Each tuple contains a unique pair_id, source, hint_variant, question, gold, hint_text, prompt, cot, answer, judge_strict, and judge_relaxed. Residual activations at L11/L31/L55 are saved separately as .pt files. The dataset has a small sample size by design (N=400), with Phase B planned to scale 5-10×.

提供机构：

caiovicentino1

搜集汇总

数据集介绍

构建方式

CoTGuard-miniPOC-qwen36-27b数据集的构建严格遵循前沿的可信度测量方法论，其设计基石汲取了Anthropic团队在思维链忠实度测量中的提示注入技术，并融合了METR团队在松弛忠实度标准上的探测器方法。具体而言，数据集依托Qwen3.6-27B推理模型，围绕GSM8K与MMLU两大基准测试中的200个问题，分别引入中性（A_neutral）与关切性（B_concerning）两种提示变体，生成了总计400组生成实例。每组数据以元组形式组织，包含唯一标识符、原始问题、黄金答案、提示文本、完整思维链、最终输出，以及基于严格与松弛两种评判标准的忠实度标签。尤为关键的是，模型在推理过程中第11、31、55层残差激活值被单独提取并存储为PyTorch格式文件，为后续探针训练提供了结构性神经表征基础。

使用方法

该数据集专为训练与评估线性探针而设计，使用流程主要分为数据加载、探针构建与效度验证三个阶段。研究者可通过HuggingFace数据集加载接口直接获取JSON格式的元数据，同时需借助PyTorch加载对应层级的独立激活张量文件。推荐采用随机K折交叉验证与三路拆分法（训练/验证/测试）规避过拟合，并严格依据提供的两种忠实度标签分别构建探针目标。在探针评估阶段，应参照数据集内置的FINAL_VERDICT.json中的门控决策标准与指标阈值，对探针在区分忠实与不忠实思维链上的表现做出客观判断。对于希望进一步探索相位B的研究团队，本数据集可作为小规模验证基石，通过复现提示注入下的激活模式分析，为其扩展至5至10倍规模的全面实验提供方法论校准依据。

背景与挑战

背景概述

CoTGuard-miniPOC-Qwen36-27B数据集是由研究团队于2025年构建的轻量级验证数据集，旨在探索大语言模型链式思维（Chain-of-Thought）推理过程中的忠实性问题。该数据集以Qwen3.6-27B模型的推理模式为研究对象，联合Anthropic、METR等机构的前沿方法论，包括提示注入与探针检测技术，系统评估模型在复杂推理任务中是否忠实于内部推理步骤。数据集覆盖GSM8K与MMLU两大基准测试，生成400条提示-推理对，并引入严格与宽松两种判定标准，为后续大规模实验（Phase B）奠定基础。其核心贡献在于为机械可解释性与幻觉检测提供了可复现的探针训练范例，推动了语言模型推理透明度的研究边界。

当前挑战

该数据集面临的核心挑战首先在于如何准确界定链式思维的忠实性——仅以提示词汇的显式复述作为不忠实代理指标存在争议，来自arxiv 2512.23032的批判强调需要更精细的忠实度定义。其次，数据集规模较小（N=400），虽有利于快速验证探针可行性，但统计稳定性不足，可能影响结论的泛化性。在构建过程中，研究者需平衡提示变异的设计复杂度与标签一致性，同时确保残差激活值的采集不引入外部噪声，这对实验规范提出了严苛要求。此外，如何融合严格与宽松两种判定标准以兼容不同学派的方法论，亦构成方法论层面的挑战。

常用场景

经典使用场景

在大型语言模型的可信推理领域，链式思维（Chain-of-Thought, CoT）的忠实性评估是核心挑战之一。该数据集专为探究推理过程中模型是否忠实遵循提示信息而设计，经典使用场景包括训练和评估基于线性探针（linear probe）的检测器，以判断CoT是否真正吸收了给定的提示（hint）。具体而言，研究者利用数据集中的（问题、提示、CoT、判断标签、残差激活）元组，在Qwen3.6-27B模型的推理阶段，于思考终止标记（end-of-think token）处提取激活值，训练一个线性探针来捕捉提示确认信号。这一方法为理解模型内部表征与推理行为的一致性提供了轻量级、可解释的量化途径。

解决学术问题

该数据集直面大型语言模型中CoT推理忠实性这一悬而未决的学术议题，尤其聚焦于模型是否在推理过程中实际采纳了外部提供的提示信息，而非仅仅在最终答案中复现。传统上，评估CoT忠实性依赖行为层面的截断实验或提示注入方法，但这些手段难以区分表面复述与真实推理。该数据集通过同时提供严格标签（Anthropic 2025标准：CoT是否明确提及提示）和宽松标签（METR 2025标准：CoT是否展示主要推理步骤），使得研究者能够对比不同忠实性判据下的模型表现。这一精细化标签方案有助于揭示模型内部推理机制与外部行为的差异，推动了关于‘忠实性是否必然要求提示显式编码’的学术辩论，也为探索推理过程中的幻觉与信息偏移提供了结构化实验基础。

实际应用

在实际应用层面，该数据集为构建可信赖的AI推理系统提供了关键的验证工具。例如，在医疗诊断辅助、法律文书分析或金融风险评估等高 stakes 场景中，模型输出的推理过程需要展现对用户提供的关键信息（如症状、法条或市场数据）的真实利用，而非似是而非的敷衍。通过本文数据集训练的线性探针，开发者可以低成本地实时监控模型在推理早期是否真正‘注意到’了重要提示，从而触发警报或要求重新生成。此外，该数据集的方法论也可迁移至其他开源模型的忠实性审计，帮助模型部署方在对话系统中甄别虚假推理链条，提升最终决策的透明度与可信度。

数据集最近研究