agent-probe-guard-qwen36-27b
收藏Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/caiovicentino1/agent-probe-guard-qwen36-27b
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于Qwen3.6-27B代码代理的探测权重,专门设计用于机械解释性和探测任务。数据集包含两个训练好的探测权重(L55_thinking和L43_pre_tool),以及相关的标准化器、维度选择和元数据。这些探测是基于逻辑回归模型构建的,应用于经过标准化的top-K维度差异。L55_thinking探测在CV AUROC上表现优异,达到0.848,比随机基线高出0.147。数据集主要用于路由决策(跳过/升级/继续),而非行为引导,因为已证实这些探测位置不会影响模型输出。数据集还包含完整的来源元数据(meta.json)和快速使用指南。当前版本(v0.1)中L55_thinking探测已通过验证,而L43_pre_tool探测为占位版本,将在v0.2中更新。数据集附带方法学保障措施,包括随机特征基线、控制令牌标准化和结构刚性α扫描等验证手段。
创建时间:
2026-05-08
原始信息汇总
数据集概述:agent-probe-guard probe weights for Qwen3.6-27B
基本信息
- 许可证:Apache-2.0
- 语言:英文
- 数据集规模:n<1K(小于1000个样本)
- 标签:机械可解释性、探针、线性探针、智能体、Qwen、检测、中间推理
数据集内容
该数据集包含用于 Qwen3.6-27B 代码智能体的双探针激活门控(Two-probe activation gate)的权重、缩放器(scalers)、维度选择(dim selections)以及元数据。由 openinterp.AgentProbeGuard SDK 使用,仅用于检测目的。
包含的文件
| 文件名 | 层 | 位置 | 容量(K) | 交叉验证 AUROC | 随机 K 匹配基线 | 差距 |
|---|---|---|---|---|---|---|
probe_L55_thinking.joblib |
55 | last_prompt_token | 5 | 0.848 | 0.701 | +0.147 🟢 |
probe_L43_pre_tool.joblib |
43 | pre_tool(或作为 v0.1 占位符使用 last_prompt) | 10 | 0.830 | 0.749 | +0.080 |
meta.json |
— | — | — | 完整来源信息 | — | — |
两个探针均为基于 StandardScaler 变换后的 top-K 均值差维度训练的 sklearn LogisticRegression 模型。
探针特性与安全性
检测专用,不干预模型行为
- L43 pre_tool:探针方向仅增加均匀的 softmax 温度偏移,而非特定目标的偏差。
- L55 thinking:即使在 α=+200 的强扰动下,模型输出也不发生变化。
- 实验确认这两个探针不干预模型行为,可用于路由决策(跳过/升级/继续)而非操控。
其他可干预的探测位点
- L23 pre_tool、L31 pre_tool、L43 turn_end 和 L55 pre_tool 在 α=−100 时产生 +30 至 +60pp 的探针与随机基线差距。
- L31 pre_tool 的差距(+33-40pp)在多种代码分布上具有饱和度独立性。
版本状态
| 探针 | 状态 | 说明 |
|---|---|---|
| L55 thinking | ✅ 稳定 | 在 N=240 的 HotpotQA 提示上训练,与随机 K=5 基线差距 +0.147,经 Phase 8 确认结构锁定 |
| L43 capability | 🟡 占位符 | 当前使用 nb47b 的 L43 捕获数据作为占位符,本质上为不同层的第二个思考探针,待 v0.2 版本更新 |
验证方法
- 随机特征基线(小 N 场景下):每个 AUROC 均与随机 K 匹配基线对比,差距 ≥ +0.10 视为达到论文级标准
- 控制令牌归一化(用于操控实验):检测均匀 softmax 温度偏移
- 结构刚性 α 扫描:扫描 α 至残留范数的倍数以判别零效应
引用信息
- 主要论文:Two Forms of Epiphenomenal Probes in Code Agents: Mid-Reasoning Capability and Chain-of-Thought Emission in Qwen3.6-27B(NeurIPS 2026 MI Workshop)
- 扩展论文:Saturation-Direction Lever: A Five-Class Taxonomy of Probe Causality in Qwen3.6-27B
复现资源
- 复现工具包:https://github.com/OpenInterpretability/openinterp-swebench-harness
- SDK(PyPI):https://pypi.org/project/openinterp/
- SDK 源代码:https://github.com/OpenInterpretability/cli/blob/main/openinterp/agent_probe_guard.py
- 捕获数据(Drive,约 25MB):
openinterp_runs/nb47b_capture/{L11,L23,L31,L43,L55}_pre_gen_activations.safetensors
搜集汇总
数据集介绍

构建方式
该数据集基于Qwen3.6-27B模型在代码智能体场景下的中间层激活值构建,采用线性探针(LogisticRegression)对特定层的隐藏状态进行二分类检测。数据集包含两个探针权重文件:L55_thinking探针针对模型推理阶段最后一个提示词位置的激活值进行训练,L43_pre_tool探针则聚焦工具调用前的表征。训练流程首先通过差分均值法筛选Top-K最具区分度的维度,随后对选定维度进行标准化(StandardScaler)处理,最终拟合逻辑回归分类器。数据集还收录了完整的元数据(meta.json),涵盖层索引、位置信息、容量及交叉验证AUC-ROC等溯源信息,确保可复现性。
特点
该数据集的核心特点在于其严格遵循表观关联(epiphenomenal)探针的设计范式,即探针仅用于检测而不具备模型行为操控能力。实验验证表明,即使在极端扰动幅度(α=+200)下,L55_thinking探针对生成输出无影响,L43_pre_tool探针方向也仅引发均匀的softmax温度偏移而非目标特异性偏差。数据集的另一特色在于其多层架构设计:L55探针专攻推理阶段检测,L43探针虽为暂用替代版本,但已建立完整的鲁棒性验证体系,包括随机特征基线、控制token归一化及结构刚性扫描三种机制,以排除假阳性结论。
使用方法
用户可通过`openinterp.AgentProbeGuard`SDK便捷集成该数据集。典型使用流程为:首先加载Qwen3.6-27B模型与分词器,随后调用`from_pretrained`方法实例化探针守卫并附加至模型。在推理过程中,通过`assess`方法传入对话消息与部分回复,守卫将返回路由决策(跳过/升级/继续)及对应的能力与思考得分。对于需要直接操作权重的场景,亦可使用`joblib`加载探针工件,获取分类器、标准化器、维度索引及层信息。数据集兼容Apache-2.0许可,适用于企业合规审查场景。
背景与挑战
背景概述
该数据集由Caio Vicentino及其所属的OpenInterpretability团队于2026年创建,旨在探索大语言模型在代码代理任务中的内部表征机制。核心研究问题聚焦于Qwen3.6-27B模型在中间推理过程中的线性探测(linear probing)可行性,特别是区分能力探测(capability probe)与思维链发射探测(thinking probe)的功能差异。数据集提供了两个预训练探针的权重、缩放器及维度选择文件,分别对应模型第43层(预工具阶段)和第55层(思考阶段)的激活模式。相关工作已在NeurIPS 2026机械可解释性研讨会上发表,提出了探针因果性的五类分类法及饱和方向杠杆理论,对理解大语言模型内部计算路径与行为调控机制具有重要推动作用。
当前挑战
数据集面临的核心挑战在于准确区分探针的检测功能与操控能力。实验表明,当前提供的两个探针(L43 pre_tool和L55 thinking)仅能用于检测而非干预模型行为——L55探针由于结构上位于聊天模板自动注入的<think>标记下游,即使施加极大扰动也无法改变输出;L43探针则仅产生均匀的softmax温度偏移。然而后续实验发现同一模型中其他层(如L23、L31、L55 pre_tool)的探针具备显著的行为操控杠杆效应,这揭示了探针功能定位的极端复杂性。数据集构建过程中还面临数据收集的时间错位挑战:v0.1版本的L43能力探针因真实的SWE-bench Pro追踪数据尚在收集中,只能使用近似标签作为临时替代,这要求后续版本必须通过完整的阶段1元数据更新才能确保探测可靠性。
常用场景
经典使用场景
在智能体推理过程的机制可解释性研究中,agent-probe-guard-qwen36-27b 数据集作为一套基于线性探测(linear probing)的轻量级分类器权重集合,被广泛用于实时检测 Qwen3.6-27B 模型在代码智能体任务中是否正在进行中间推理(mid-reasoning)或即将调用工具(pre-tool)。研究者通过将探测器注入模型的特定层(如 L55 的思辨层与 L43 的工具前层),能够在不干扰模型生成行为的前提下,精确识别智能体当前所处的认知阶段,从而为更细粒度的行为监控与路由决策提供量化依据。该数据集因其高 AUROC 性能以及与随机 K 匹配基线的显著分离度(gap ≥ +0.10),成为验证神经网络内部状态探测方法有效性的标杆资源之一。
解决学术问题
该数据集核心解决了在大型语言模型驱动的代码智能体中,如何在不侵入生成过程的前提下,实现对其内部认知状态的可靠检测这一学术难题。传统研究往往依赖输出文本的表面特征来推断模型行为,而难以触及推理过程中的隐藏表征。通过提供经严格实验验证的线性探测权重和标准化方法,本数据集使得研究者能够直接利用中间层激活向量来区分模型是否处于“思考”或“即将执行工具”的认知状态,从而开辟了从神经网络内部表征视角理解智能体行为的新路径。其意义在于,它不仅提供了可复现的检测工具,更通过配套的三种健全性检验(随机特征基线、控制令牌归一化、结构性刚性与强度扫描),为探测方法的可信度建立了方法论标准,推动了机制可解释性从描述性分析走向干预性验证的范式转变。
衍生相关工作
该数据集的工作直接衍生了多个重要的学术探索方向。基于其提供的探测方法和实验范式,后续研究(如论文第五节的 Phase 11/11b/11d)进一步发现了在其他层位(如 L23、L31 的 tool-pre 位置以及 L43 的 turn_end 位置)存在能够显著改变模型行为的杠杆性探针(lever probes),实现了高达 +30 至 +60 个百分点(pp)的探测与随机基线之间的差距。特别是 L31 的 tool-pre 探针展现出跨代码分布(覆盖 HumanEval、MBPP、BigCodeBench 等基准)的饱和度无关鲁棒性(saturation-independent robustness),形成了“α=-100 鲁棒性定理”。此外,本数据集催生的五类探针因果性分类法(saturation-direction lever 理论)为理解探测方向与模型行为之间的复杂关系提供了全新的理论框架,激励了后续研究者对线性探针的因果干预能力进行系统化再评估。
以上内容由遇见数据集搜集并总结生成



