Qwen3.6-35B-A3B-mcr-stage-b

Hugging Face2026-04-20 更新2026-04-21 收录

下载链接：

https://huggingface.co/datasets/caiovicentino1/Qwen3.6-35B-A3B-mcr-stage-b

下载链接

链接失效反馈

官方服务：

资源简介：

Qwen3.6-35B-A3B MCR Stage B 数据集是一个专注于混合专家（MoE）、门控Delta网络（GDN）和门控注意力架构的机制可解释性研究的开源数据集。该数据集包含了来自711个标记的SuperGPQA滚动的每令牌残差流激活数据，覆盖了L11、L17和L23层的激活。数据集支持多种干预实验，旨在揭示Qwen3.6-35B-A3B模型中的分布式推理机制。主要发现包括：推理关键区域位于L15-L20层，该区域对单点干预具有抵抗力，但系统性未训练的循环扰动会破坏推理能力。此外，数据集还引入了循环不耐受分析（Loop-Intolerance Profiling）作为新的推理关键区域定位方法，并展示了一个Pareto-positive的遗忘推理包装器，在Stage B上实现了α=1.0的峰值效果。数据集包含200个问题，约1000次滚动，过滤后得到711次有效滚动，共计1,413,847个L17层每令牌激活。数据集适用于问答、文本生成等任务，特别适合机制可解释性、推理和干预研究。

创建时间：

2026-04-19

原始信息汇总

Qwen3.6-35B-A3B MCR Stage B — 分布式推理定位语料库数据集概述

数据集基本信息

数据集名称: Qwen3.6-35B-A3B MCR Stage B — Distributed Reasoning Localization Corpus
发布者: caiovicentino1
许可证: MIT
任务类别: 问答、文本生成
语言: 英语
标签: 机械可解释性、前向规划、混合专家模型、Qwen3.6、推理、干预、探针、稀疏自编码器、转码器、循环变换器、遗忘探针
规模: 1K < n < 10K
模型来源: Qwen/Qwen3.6-35B-A3B (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)

数据集内容与结构

数据来源与构成

包含来自711个标记的SuperGPQA rollout的逐令牌残差流激活，这些激活位于模型的第11、17和23层。
原始模型架构为混合专家模型，包含128个专家，每个令牌激活8个，并在40层中的32层使用了门控Delta网络，在8层使用了门控注意力机制。

文件结构

数据集文件组织在 shards/ 目录下，包含200个分片文件（q0.safetensors 至 q199.safetensors）。每个分片文件包含以下张量：

acts_L11: 形状为 (total_tokens, 2048)，数据类型为 bfloat16，表示第11层的残差。
acts_L17: 形状为 (total_tokens, 2048)，数据类型为 bfloat16，表示第17层的残差。
acts_L23: 形状为 (total_tokens, 2048)，数据类型为 bfloat16，表示第23层的残差。

元数据

元数据以JSON格式存储在safetensors文件的 metadata() 中，包含：

offsets: 每个rollout的切片索引。
rollouts: 包含rollout_id、预测结果、正确性、响应长度等信息的列表。
response_tokens: 每个rollout的令牌ID（仅响应部分）。
question、options、gold_letter、question_global_idx: 上游元数据。

统计信息

问题数量: 200
Rollout总数: 约1,000
通过筛选的Rollout数（响应长度≥200）: 711
第17层逐令牌激活数: 1,413,847
解码方式: 贪婪解码
领域: SuperGPQA的14个学科

答案选项分布（筛选后n=711）

A	B	C	D	E	F	G	H	I	J
104	84	102	56	41	59	55	56	94	60

主要实验发现

数据集支持一系列干预实验，所有结果指向一个一致的实证结论：Qwen3.6-35B-A3B中的推理分布在L15-L20层，对单点操作具有抵抗力，但会被未经训练的循环扰动系统性破坏。

关键发现摘要

前向规划检测：使用前10个响应令牌预测最终答案的准确率可达52%（5倍于随机机会）。
三阶段承诺：在T=10时，存在一个“纯机械”时间窗口，激活准确率比词袋控制高出37.8个百分点。
单点干预无效：在L11和L17层进行的逻辑回归方向修补、稀疏自编码器特征修补、转码器归因消融等单点干预方法均未产生因果效应（效果为零或负）。
遗忘探针签名：消融探针方向反而使源答案保持率增加15%，表明探针读取的是相关性而非驱动因素。
诱导循环的破坏性：在推理时引入循环会导致准确率单调线性下降（最多下降38个百分点）。
循环不耐受分析：提出了一种新的“循环不耐受分析”方法，通过系统性扰动将推理关键区域定位在L15-L20层（该区域循环导致准确率下降27.3个百分点）。
范数保持循环的部分恢复：对循环残差施加范数保持约束，可以在N=2次循环时恢复约10个百分点的准确率差距。
遗忘推理验证：在真实推理中消融L17层的探针方向，在617个Stage B 10选项项目上获得了+0.9至+3.0个百分点的准确率提升，且零损失（10个项目获益，0个项目受损），达到了帕累托改进。
泛化边界：上述积极效应是分布内特有的，无法泛化到结构相同的MMLU-Pro 10选项项目上。

合成图景

推理表征: 分布在L15-L20层，是负载关键的（破坏会导致性能大幅下降），但无法通过单方向干预进行操纵。
探针性质: L17层探针的高AUROC（0.78）是对类间对比的观测性读取，而非因果驱动因素。
架构特性: 该架构未经训练，无法进行循环计算，未经修改的循环是一种偏离流形的扰动。

搜集汇总

数据集介绍

构建方式

在语言模型可解释性研究领域，Qwen3.6-35B-A3B-mcr-stage-b数据集作为首个针对混合专家（MoE）架构的系统性机制干预语料库，其构建过程体现了严谨的实验设计。数据集核心内容源自711个经过标注的SuperGPQA推理轨迹，这些轨迹由Qwen3.6-35B-A3B模型生成。构建者从每个推理轨迹中，专门提取了模型第11、17和23层的逐令牌残差流激活值，并以安全张量格式进行组织。每个数据分片不仅包含高维的激活张量，还附有详细的元数据，如每个轨迹的切片索引、预测结果、正确答案以及原始的题目与选项信息，确保了数据与实验上下文的完整对应。

特点

该数据集的核心特点在于其作为研究混合架构推理机制的独特价值。它首次提供了在融合了门控注意力、门控Delta网络和混合专家路由的复杂模型上的系统干预数据。数据集中包含了超过140万个来自关键中间层的令牌激活，为分析模型的前向规划等高级认知行为提供了密集的观测点。其标注体系精细，不仅区分了模型预测的正误，还涵盖了长达200个令牌的响应序列，使得研究者能够深入追踪模型从沉默规划到最终输出的完整决策链条。这些特征共同构成了一个高分辨率的窗口，用以探查分布式表示如何在大规模参数模型中承载复杂的推理过程。

使用方法

该数据集主要服务于语言模型机制可解释性的前沿研究。使用者可以加载分片化的激活数据与对应元数据，复现或拓展报告中详述的八级干预实验，例如逻辑回归探针修补、稀疏自编码器特征干预或诱导循环分析。数据集支持对特定层（如L17）在特定时间步（如前10个响应令牌）的激活进行定向操作，以检验不同干预手段对模型输出行为的因果影响。此外，研究者可利用其进行新型方法的开发与验证，例如循环不耐受分析，通过系统性扰动来定位模型中对推理至关重要的层区。该语料库为理解混合架构中的分布式计算与表征冗余提供了坚实的实证基础。

背景与挑战

背景概述

Qwen3.6-35B-A3B-mcr-stage-b数据集由Qwen团队于2025年构建，旨在探索混合专家（MoE）与门控注意力架构下的机制可解释性。该数据集聚焦于分布式推理定位，通过收集Qwen3.6-35B-A3B模型在SuperGPQA任务中的逐令牌残差流激活数据，系统分析了前向规划与推理机制在复杂模型中的表现形式。其核心研究问题在于揭示混合架构中推理过程的分布特性与抗干预能力，为机制可解释性领域提供了首个针对此类架构的标注干预语料库，推动了模型内部表示与因果归因方法的前沿探索。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，其致力于解决混合专家模型中的机制可解释性难题，特别是分布式推理的定位与操纵。由于模型结合了MoE路由、门控Delta网络和门控注意力，传统基于密集Transformer的归因图与电路追踪方法失效，导致推理机制难以通过单点干预进行解析或控制。在构建过程中，挑战包括从高度复杂的模型架构中提取并标注多层残差激活数据，同时确保实验设计能系统覆盖多种干预方法（如探针修补、稀疏自编码器特征干预等），以验证推理的分布性与抗干预特性，这要求精细的数据工程与严格的实验验证流程。

常用场景

经典使用场景

在可解释性人工智能领域，Qwen3.6-35B-A3B-mcr-stage-b数据集为混合专家架构的机制分析提供了首个系统性实验平台。该数据集通过捕捉模型在推理任务中的逐令牌激活状态，支持对前向规划、分布式表示等核心认知机制的深入探查。研究者可利用其标注的激活轨迹，执行多层级干预实验，从而揭示复杂模型内部信息流动与决策形成的动态过程。

实际应用

在实际应用中，该数据集支持开发更稳健的模型诊断与优化工具。例如，基于循环不耐受分析定位的推理关键区域，可指导模型压缩或模块化改进；而遗忘性推理验证展示的帕累托改进潜力，为降低模型预测噪声提供了新思路。这些发现有助于构建更透明、可控的AI系统，提升其在医疗、金融等高风险领域的部署可靠性。

衍生相关工作

该数据集催生了多项前沿研究，包括循环不耐受分析法的提出，以及混合架构中遗忘性探针的实证验证。相关方法扩展了Elazar等人的理论框架，并为Parcae等稳定性训练技术提供了实验对照。此外，它在跨模态机制可解释性、分布式表示鲁棒性评估等领域激发了新的研究范式，推动了可解释AI与模型架构设计的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集