gemma-4-e2b-atlas

Hugging Face2026-05-16 更新2026-05-18 收录

下载链接：

https://huggingface.co/datasets/juiceb0xc0de/gemma-4-e2b-atlas

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个独立配置，主要用于模型（特别是基于Transformer架构的模型）行为分析与评估。bouncer_analysis配置包含24,625条记录，每条记录包含分割标识和原始记录内容，可能用于模型输出或中间结果分析。bouncer_scores配置包含35条记录，关联模型层与记录，可能用于计算或存储模型在不同层上的评分。per_head配置设计用于注意力头级别的详细分析，包含层编号、组件类型、头编号、维度数、非零方差、分类标签、分离分数等多个特征，旨在量化注意力头的行为特性，但当前版本未包含实际样本数据。prompts配置包含825条文本提示，每条提示具有类别和子类别标签，可用于生成模型输入或评估任务。数据集整体侧重于提供模型内部机制（如层、注意力头）的可解释性数据，以及配套的文本提示集合。

This dataset includes four independent configurations, primarily used for model behavior analysis and evaluation, especially for models based on Transformer architectures. The bouncer_analysis configuration contains 24,625 records, each including a segmentation identifier and raw content, likely for model output or intermediate result analysis. The bouncer_scores configuration contains 35 records, linking model layers with records, possibly for calculating or storing model scores across different layers. The per_head configuration is designed for detailed analysis at the attention head level, including features such as layer number, component type, head number, dimension count, non-zero variance, classification labels, and separation scores, aiming to quantify the behavior characteristics of attention heads, but the current version does not include actual sample data. The prompts configuration contains 825 text prompts, each with category and subcategory labels, usable for generating model inputs or evaluation tasks. Overall, the dataset focuses on providing interpretability data for model internal mechanisms (e.g., layers, attention heads) and a supporting collection of text prompts.

创建时间：

2026-05-16

原始信息汇总

基于您提供的README文件内容，以下是对该数据集的详细总结。

数据集概述

该数据集名为 gemma-4-e2b-atlas，托管于 Hugging Face 平台，主要围绕 Gemma 4 模型（推测为E2B版本）的神经元分析、组件分析、提示词分类等机械可解释性研究内容。数据集包含多个配置（config），每个配置对应一个独立的数据子集，所有数据仅提供训练集（train split）。

数据集结构与配置

数据集共包含 9个配置，具体如下：

配置名称	描述	样本数	数据集大小
bouncer_analysis	分析数据，包含 `split` 和 `record` 字段	24,625	4.23 MB
bouncer_scores	每层（layer）的 bouncer 得分，包含 `layer` 和 `record` 字段	35	156.69 MB
coactivation	神经元共激活分析，记录层、组件、神经元对及其相关性	26,265	1.48 MB
code_analysis	代码特征分析，包含每个组件的代码桶、纠缠/选择神经元列表	240	129.82 KB
component_summary	组件级汇总，统计特征数量、F统计量、代码桶、分类信息等	240	29.05 KB
per_head	每注意力头（head）的统计，包括维度、分离分数、分类信息	590	65.43 KB
prompts	提示词数据，包含类别、子类别和提示词文本	825	99.90 KB
separation	神经元分离分析，记录每层/组件的 F 统计量分数	240	9.99 MB
taxonomy	神经元分类数据，包含激活率、平均激活值、标准差等	1,248,768	80.33 MB

关键特征字段说明

每个配置具有不同的特征，以下列出重点字段：

公共字段：layer（层索引）、component（组件名称，如注意力或MLP）
神经元与激活：neuron_a、neuron_b（神经元对）、activation_rate、mean_activation、std_activation
分类与代码分析：class（分类标签）、code_bucket（代码桶）、entangled_neurons、selective_neurons
统计指标：correlation（相关性）、fstat_top（顶部F统计量）、top_sep_score（最高分离分数）
提示词：category、subcategory、prompt（文本）

数据规模概要

指标	数值
总配置数	9
总样本数（所有配置合计）	约 1,276,548
总下载大小	约 141.56 MB
总数据集大小	约 253.57 MB

数据用途

该数据集适用于机械可解释性研究，具体可用来分析：

神经元共激活模式
注意力头部的分离性
代码相关的神经元选择性
神经元分类与激活统计
提示词驱动的模型行为分析

所有数据仅提供训练集，无验证集或测试集。

搜集汇总

数据集介绍

构建方式

该数据集名为gemma-4-e2b-atlas，是围绕Gemma-4模型（一个2B参数的变体）的神经元激活行为与解释性分析而构建的综合性资源。其构建过程采用多维度分析方法，涵盖从特征分离评分到代码层面解析的多个层面。数据集由九个配置组成，每个配置聚焦于不同的分析维度，例如bouncer_analysis与bouncer_scores记录评估者行为与得分，coactivation追踪神经元对的共激活模式，code_analysis探索神经元与代码桶的关联，component_summary汇总组件级统计，per_head分析注意力头特性，prompts提供分类化的提示样本，separation计算特征分离度，而taxonomy则对神经元进行层级分类。所有数据均以结构化格式组织，便于后续机制性研究。

特点

该数据集的核心特点在于其覆盖了从微观神经元到宏观组件层面的多粒度解释性信息。其中taxonomy配置包含超过124万条神经元记录，详细列出了每层的激活率、平均激活强度和标准差，为模型内部状态的量化分析提供了坚实基础。coactivation配置揭示了神经元间的相关性结构，而code_analysis则通过entangled与selective神经元计数，量化了神经元对特定代码桶的选择性响应。per_head配置进一步提供了注意力头的分离评分与维度分布。这些特点使得数据集既能服务于神经元级别的细粒度分析，也能支撑组件级别的宏观洞察。

使用方法

使用该数据集时，研究者可通过HuggingFace Datasets库加载特定配置，如`load_dataset('gemma-4-e2b-atlas', 'taxonomy')`以获取神经元分类数据，或加载`coactivation`配置分析共激活模式。每个配置均仅包含训练集，数据以parquet格式存储，支持高效的列式访问与过滤。例如，通过筛选`layer`与`component`字段，可聚焦特定层的注意力或前馈网络组件。prompts配置提供的825条分类提示可用于激活探测实验，而separation数据则支持特征分离度的批量计算。这种模块化的结构设计，使得数据集能够灵活适配从神经科学探究到模型调试的多种研究场景。

背景与挑战

背景概述

随着大型语言模型（LLM）在自然语言处理领域的广泛应用，其内部工作机制的透明性与可解释性成为关键研究课题。gemma-4-e2b-atlas数据集由研究机构于近期创建，旨在深入探究Gemma系列模型（尤其是4B参数量版本）的神经元激活模式与表征分离特性。该数据集汇聚了多项分析任务，涵盖神经元共激活、代码选择性、组件分类及词头分离度等，为解读模型内部计算单元的功能特异性与行为规律提供了高分辨率数据支持。其发布显著推动了对稀疏自编码器、神经科学启发下的可解释性方法在LLM中应用的理解，并促进了模型对齐与安全评估的实证研究。

当前挑战

该数据集所面临的挑战首先在于领域问题的复杂性：LLM内部神经元与注意力头呈现出高度纠缠与功能重叠的特性，传统归因方法难以精准定位特定行为的神经表征。数据集构建过程中，需从海量激活数据中提取可复现的模式，并设计有效的统计指标（如F统计量、分离度评分）以捕获选择性与混杂性。此外，跨层、跨头的大规模相关性分析带来计算与存储瓶颈，且确保分类体系（如稀有共享与广泛共享）的鲁棒性与语义一致性亦构成方法论上的难题。数据集还需应对概念漂移——随着模型迭代，原有神经功能分类可能不再适用，要求持续更新与标准化分析框架。

常用场景

经典使用场景

在大语言模型的可解释性研究中，gemma-4-e2b-atlas数据集被广泛用于探究神经网络内部神经元的激活模式与功能分工。研究者借助其中包含的神经元激活分类、共激活关系及代码分析等子集，能够系统性地解析模型在不同层与组件中的表征倾向。该数据集特别适用于分析稀疏自编码器训练后的神经元选择性活跃特性，并支持关联特定代码片段或提示任务进行功能归因。通过对不同层神经元的结构与响应特征进行归纳，可以揭示模型在处理复杂语言任务时的内部机制。

衍生相关工作

该数据集衍生了一系列探索神经元层级与功能分离的经典工作，例如基于该数据集分析不同模型下神经元分类学的比较研究，以及依据共激活图构建神经元集群分布的方法论探索。部分后续研究还利用其成分摘要数据，提出了改进稀疏自编码器训练策略的新框架。同时，基于该数据集中的提示与代码分析信息，有工作进一步构建了面向模型行为归因与可解释推理的交互式引擎。这些衍生工作共同拓展了面向内部表征的机理分析前沿。

数据集最近研究