gemma4-31b-layer-study

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/KikoCis/gemma4-31b-layer-study

下载链接

链接失效反馈

官方服务：

资源简介：

Gemma 4 31B IT — 层分析研究数据集是一个针对Google Gemma 4 31B IT模型中Transformer层的全面实证研究。该数据集包含三个阶段的实验数据：阶段A测量了每层的块影响力（BI）、残差范数和增量（300个探针×60层）；阶段B通过Logit Lens探测了每层隐藏状态（60个探针，60层，top-k tokens，目标排名）；阶段C进行了单层消融实验（35段文本，60层，困惑度增量）。研究发现：10-22层极度冗余，52-59层为决策层，部分层（如27、29层）移除后模型性能显著提升。数据集包含完整的原始测量数据、探针集、分析脚本和交互式可视化工具，适用于模型剪枝、机制解释性研究和基准测试。最终基于研究结果提出了仅剪枝2层的优化方案（Otter v3模型），在保持性能的同时减少了模型复杂度。

创建时间：

2026-04-14

原始信息汇总

Gemma 4 31B IT — Layer Analysis Study 数据集概述

数据集基本信息

数据集名称: Gemma 4 31B IT — Layer Analysis Study
托管地址: https://huggingface.co/datasets/KikoCis/gemma4-31b-layer-study
许可协议: Apache 2.0
语言: 英语 (en)
规模: n<1K
标签: gemma4, layer-analysis, pruning, mechanistic-interpretability, benchmark

研究内容

这是一个针对 Google Gemma 4 31B IT 模型的三阶段实证研究，旨在识别其 Transformer 层中哪些是关键的、冗余的或对模型预测有害的。

数据集包含文件

文件	描述
`layer_stats.json`	阶段 A — 每层的块影响力 (BI)、残差范数、差值 (300个探针 × 60层)
`logit_lens.json`	阶段 B — Logit Lens 探测 (60个探针，60层，top-k tokens，目标排名)
`ablation.json`	阶段 C — 单层消融 (35个段落，60层，困惑度差值)
`block_ablation.json`	阶段 C2 — 块消融 (4种丢弃大小: 10/14/18/22层)
`probes.json`	使用的 300 个探针 (6个类别 × 50个提示)
`phase_a.py`	阶段 A 计算脚本 (mlx-lm hooks)
`phase_b.py`	阶段 B Logit Lens 脚本
`phase_c.py`	阶段 C 单层消融脚本
`phase_c2.py`	阶段 C2 块消融脚本
`index.html`	交互式可视化 (Chart.js，可在浏览器中点击查看)
`RESULTS.md`	对比剪枝变体与基础变体的基准测试结果
`drop_plan.json`	基于证据的最终丢弃方案

关键发现

阶段 A — 块影响力 (BI 分数)

在残差流上测量了 1 - cosine_similarity(h_in, h_out)，覆盖 60 层和 6 个类别 (CLI/bash、代码/Python、数学、事实、多语言、对话) 的 300 个探针。

第 10-22 层 极度冗余 — 所有类别中 BI < 0.005。
第 52-59 层 是“决策层” — BI 为 0.1 至 0.95。
冗余层的跨类别方差接近于零 (中间层没有类别特定的专门化)。
令人惊讶的是，全注意力层 11 和 17 也是冗余的 (BI 0.002-0.004)。

阶段 B — Logit Lens

将每层的隐藏状态通过模型的最终归一化层和绑定的语言模型头进行投影，以检测模型在何处确定答案。

直到约第 30 层，目标 token 排名约为 250,000 (随机) — 未做出决策。
决策级联发生在第 56-59 层: 目标排名从 2533 → 51 → 3 → 1 急剧下降。
对话类最早决策 (第 49 层)，事实/多语言类最晚决策 (第 58-59 层)。
前 30 层在一个不投影到词汇表的潜在空间中运行。

阶段 C — 单层消融

单独禁用每一层 (跳过残差更新)，并在 35 个保留段落上测量困惑度差值。

影响	层数	备注
关键 (PPL ×2 至 ×2360)	0, 1, 58, 59	嵌入/决策层 — 绝不能移除
强负面影响	39, 49, 56	PPL +100% 至 +355%
轻微正面贡献	3, 10, 13, 16, 18, 19, 20, 44, 45, 46, 48, 50	PPL +5% 至 +11%
净中性 (在 ±5% 内)	2, 4, 6, 7, 9, 14, 52, 57	大部分可以安全丢弃
净负面 — 移除后模型改进	5, 8, 11, 12, 15, 21-38, 41, 47	PPL -10% 至 -74%

最大发现：

第 27 层 消融: PPL 下降 74% — 该层增加了噪声。
第 29 层 消融 (全注意力层!): PPL 下降 71%。
第 23-38 层 大部分单独存在时都对模型有害 — 但集体存在时它们是负载承载的 (复合效应)。

阶段 C2 — 块消融

同时禁用多个“安全”层以检测复合效应：

丢弃数量	PPL	Δ%
0 (基线)	329	—
10	659	+100%
14	991	+201%
18	2075	+531%
22	28038	+8428%

→ 即使有单层消融证据，丢弃多层也会产生严重的复合负面影响。层之间会相互补偿。

最终丢弃方案: Otter v3

基于所有三个阶段的综合证据，最安全的剪枝方案是仅丢弃 2 层：

丢弃层 {27, 29} → 58 层模型，命名为 "otter-v3"：

第 27 层单层消融: -74% PPL
第 29 层单层消融: -71% PPL
块 {27,29} 消融: 496 → 117 PPL (-76%)
实证 CLI 测试: 7/7 在 7 个问题的 CLI 基准测试上

剪枝后的模型发布于：

https://huggingface.co/KikoCis/gemma-4-31b-otter-v3-GGUF

方法论说明

mlx-lm 类级别猴子补丁: 替换 DecoderLayer.__call__ 以记录激活或跳过层，允许在不修改 mlx-lm 源代码的情况下进行零开销的每层测量。
保留评估: 用于分析的探针与困惑度测试集是分离的，防止了记忆驱动的人工痕迹。
测量复合效应: 在推荐任何丢弃方案之前，用块消融验证了单层证据。
无需微调: Otter v3 继承了基础模型的所有权重；手术纯粹是结构性的。

对比: Otter v3 与基础模型

指标	Base IQ3_XS (60 层)	Otter v3 Q3_K_M (58 层)
大小	13.1 GB	14.1 GB
层数	60	58
CLI 7/7 带思考	7/7 ✓	7/7 ✓
推理速度 (M4 Max)	~21 tok/s	~22 tok/s
NL2Bash 基准测试	见 RESULTS.md	见 RESULTS.md

如何复现

python

在任何兼容模型上运行阶段 A

python phase_a.py --model /path/to/gemma-4-31b-it

运行所有阶段

python phase_a.py --model /path/to/model python phase_b.py --model /path/to/model python phase_c.py --model /path/to/model python phase_c2.py --model /path/to/model

打开可视化

open index.html

引用

如果使用本研究或 Otter v3 模型，请引用：

Cisneros, K. (2026). Gemma 4 31B Layer Analysis Study. HuggingFace: KikoCis/gemma4-31b-layer-study

搜集汇总

数据集介绍

构建方式

在大型语言模型可解释性研究领域，gemma4-31b-layer-study数据集的构建遵循了严谨的三阶段实证分析框架。其构建过程首先通过钩子技术，在模型推理时无损地记录各Transformer层的激活状态与残差流变化，从而获取了包含300个多样化提示的探测集上的原始测量数据。随后，研究综合运用了块影响力评分、对数透镜分析以及单层与块级消融实验等多种机制解释性方法，系统地评估了Google Gemma 4 31B IT模型中60个Transformer层对模型预测的关键性、冗余度乃至潜在危害。整个数据采集与处理流程均基于开源工具实现，确保了实验的可复现性。

特点

该数据集的核心特征在于其多维度的深度分析视角与精细的量化测量。它不仅提供了逐层的块影响力评分、残差范数及对数透镜投影结果，还包含了单层与连续块消融对模型困惑度影响的完整数据。数据揭示了模型内部工作的鲜明层次结构：中间层（如10-22层）表现出极高的功能冗余性，而末端层（52-59层）则被识别为关键的“决策层”。尤为引人注目的是，数据明确指出了某些层（如27、29层）的单独移除反而能显著提升模型性能，这一反直觉的发现为模型剪枝提供了全新的证据基础。

使用方法

该数据集主要服务于语言模型的机制解释性研究与结构化模型压缩。研究人员可利用随附的Python脚本复现全部三阶段分析，或直接基于提供的JSON格式原始数据（如`layer_stats.json`、`ablation.json`）进行二次分析，以探究特定层在不同任务类别中的作用。数据集配套的交互式网页可视化工具（`index.html`）能够直观展示各层的影响力分布与消融效果。最终，基于数据集证据形成的剪枝方案（移除第27与29层）可直接应用于生成名为“Otter v3”的58层轻量化模型，为高效推理提供了实践路径。

背景与挑战

背景概述

Gemma4-31b-layer-study数据集于2026年由研究人员Kiko Cisneros创建，专注于对Google的Gemma 4 31B IT模型进行深入的Transformer层分析。该数据集源于大语言模型可解释性与模型压缩领域的前沿探索，核心研究问题在于识别模型中哪些层对预测至关重要、冗余或甚至有害。通过系统性的实证研究，该工作旨在揭示大型语言模型内部层的功能分布与相互作用，为模型剪枝与优化提供数据驱动的科学依据，推动了机械可解释性研究从理论分析向实证基准的演进。

当前挑战

该数据集致力于解决大语言模型可解释性与高效化中的关键挑战：精确识别模型中的冗余或有害层以实现无损剪枝。具体挑战包括：在模型剪枝领域，如何量化评估单个层对整体性能的贡献与干扰，避免因层间补偿效应导致的性能崩塌；在构建过程中，需设计跨类别（如代码、数学、多语言）的探测集以覆盖多样化的语言任务，并开发无侵入的测量方法（如mlx-lm猴子补丁）来捕获层间激活，同时确保评估数据与探测数据的分离，防止记忆偏差影响结论的可靠性。

常用场景

经典使用场景

在大型语言模型的结构分析领域，该数据集为研究者提供了深入探究Transformer架构内部工作机制的实证基础。通过系统性的层间影响测量与消融实验，研究人员能够精确识别模型中的关键层、冗余层乃至有害层，为模型压缩与优化提供数据驱动的决策依据。这种精细化的层分析范式，已成为评估现代大语言模型结构效率的标准方法论。

解决学术问题

该数据集有效解决了模型可解释性研究中的核心难题，即如何定量评估神经网络各层对最终输出的贡献度。它通过引入块影响力评分、对数透镜分析和消融实验等多维度指标，揭示了深层Transformer模型中普遍存在的层冗余与噪声注入现象。这一工作为理解前馈网络与注意力机制的协同作用提供了实证证据，推动了机械可解释性领域从定性描述向定量分析的范式转变。

衍生相关工作

该研究催生了系列关于Transformer层动力学的后续探索，包括跨模型架构的层重要性比较研究、动态层跳过机制的开发以及基于层激活的早期退出策略。其提出的块影响力度量方法已被多个模型压缩框架采纳为标准评估指标，而揭示的中间层冗余现象则激发了关于稀疏化训练与模块化网络设计的新研究方向，推动了高效神经网络结构学的学科发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集