crosscoder-multilayer-split-activations

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/MInAlA/crosscoder-multilayer-split-activations

下载链接

链接失效反馈

官方服务：

资源简介：

Crosscoder Multilayer Split Activations 数据集存储了可重用的基础激活和对齐激活张量，用于多层 SPARC 风格的交叉编码器训练。数据集版本为 v1，包含不同模型（如 smollm3-union、llama32-3b-union、qwen3-4b-union）的基础激活和对齐激活。基础激活张量包含联合层集，而对齐激活张量包含每个对齐模型的目标探测最佳层窗口。数据集的使用需要下载一个基础联合和一个对齐运行，然后通过提供的命令在本地组装。该数据集适用于机制解释性和稀疏自编码器相关任务。

The Crosscoder Multilayer Split Activations dataset stores reusable base activations and aligned activation tensors for multilayer SPARC-style cross-encoder training. The dataset version is v1, containing base activations and aligned activations from different models (such as smollm3-union, llama32-3b-union, qwen3-4b-union). The base activation tensors include joint layer sets, while the aligned activation tensors contain the target probe best layer window for each aligned model. To use the dataset, one needs to download a base union and an aligned run, then assemble them locally using the provided commands. This dataset is suitable for tasks related to mechanistic interpretability and sparse autoencoders.

创建时间：

2026-05-03

原始信息汇总

数据集概述

数据集名称

Crosscoder Multilayer Split Activations

数据集描述

该数据集存储用于多层SPARC风格交叉编码器（crosscoder）训练的可复用基础（base-only）和对齐（aligned-only）激活张量。这些张量旨在组装成匹配的 activations.pt 训练工件，供交叉编码器训练使用。

标签（Tags）

mechanistic-interpretability
crosscoder
activations
sparse-autoencoder

版本信息

v1 版本

来源本地运行: interp_utils/crosscoder/results-multi-v1

目录结构

v1/ base_activations/ smollm3-union/ llama32-3b-union/ qwen3-4b-union/ aligned_activations/ smollm3-{dpo,grpo,kto,orpo,ppo,simpo}/ llama32-3b-{dpo,grpo,kto,orpo,ppo,simpo}/ qwen3-4b-{dpo,grpo,kto,orpo,ppo,simpo}/

每个运行目录包含：

run_meta.json
activations/base_activations.pt（仅基础运行）
activations/aligned_activations.pt（仅对齐运行）

基础层信息（v1版本）

模型	层号
smollm3-union	[16, 17, 18, 19, 20]
llama32-3b-union	[10, 11, 12, 13, 14, 23, 24, 25, 26]
qwen3-4b-union	[19, 20, 21, 22, 23, 24, 25]

使用方式

下载一个基础联合（base union）和一个对齐运行（aligned run）后，通过以下命令在本地组装： bash .venv/bin/python -m interp_utils.crosscoder.main --stage assemble --crosscoder-kind multilayer_sparc --base-activations-dir path/to/base_union_dir --aligned-activations-dir path/to/aligned_run_dir --output-dir path/to/assembled_run_dir

搜集汇总

数据集介绍

构建方式

该数据集是为多层SPARC风格交叉编码器（Crosscoder）训练而构建的原始激活张量集合。其构建方式遵循一套严谨的拆分与组装流程：首先，分别生成基础模型（base-only）与对齐模型（aligned-only）的激活张量，这些张量以独立文件形式存储于对应子目录下。基础模型的激活张量覆盖预定义的联合层（union layer）集合，如SmolLM3-union的层[16,17,18,19,20]；而对齐模型的激活张量则对应每个对齐模型在探针任务中表现最佳的目标层窗口。训练时，需通过本地脚本将基础联合张量按对齐运行的层索引进行切片与重排序，组装成匹配的activations.pt文件，从而为交叉编码器提供对齐的输入数据。

使用方法

使用该数据集需执行离线组装流程。用户从v1版本中选择一个基础联合目录（如smollm3-union）与一个对齐运行目录（如smollm3-dpo），然后通过提供的Python脚本interp_utils.crosscoder.main进行组装。具体命令为调用该脚本并指定--stage assemble、--crosscoder-kind multilayer_sparc、以及基础与对齐激活路径，最终输出至指定目录。组装过程中，脚本会根据对齐运行的层配置，自动从基础联合张量中切片并重排对应的激活数据，生成匹配的activations.pt训练文件。此方法将原始存储与训练准备解耦，支持灵活组合不同模型与对齐方法，便于交叉编码器在不同场景下的实验与比较。

背景与挑战

背景概述

在可解释性机制研究（Mechanistic Interpretability）领域，跨编码器（Crosscoder）已成为解析大型语言模型（LLM）内部表征对齐行为的关键工具，其通过将模型激活值映射至稀疏特征空间，为揭示强化学习与偏好优化引发的模型行为变迁提供了量化路径。此类研究需依赖预计算的激活张量以支持高效训练。crosscoder-multilayer-split-activations数据集由匿名研究团队于近期创建，旨在为多层SPARC风格跨编码器训练提供标准化的激活底物。该数据集涵盖Smollm3、Llama32-3B、Qwen3-4B等主流基座模型，并系统采集了经由DPO、GRPO、KTO、ORPO、PPO、SimPO等多类偏好优化方法对齐后的模型激活。其核心研究问题聚焦于如何通过跨层激活组装实现基座模型与对齐模型间特征空间的精确匹配，为后续跨编码器训练奠定数据基础，对可解释性与AI对齐领域具有重要推动作用。

当前挑战

该数据集面临的核心挑战源于跨编码器训练对激活数据结构的高度特异性要求。首先，在领域问题层面，如何从海量模型行为中稀疏化提取出本质特征，以解决基于Crosscoder的因果追踪中激活张量因模型架构差异（如层数、维度）导致的异构性问题，是当前机械可解释性研究的关键瓶颈。其次，在构建过程中，不同偏好优化方法（如PPO与Simpo）产生的对齐激活窗口长度各异，基座模型的联合层集（union layer sets）与对齐模型的探测最优层窗口（probe-best layer window）需通过精确的切片与重排实现组装，这一匹配过程对计算资源的消耗与排序算法的鲁棒性构成严峻挑战。此外，数据集的版本管理（如v1中激活文件跨模型、跨对齐方法的树状结构）与元数据编码的标准化缺失，进一步增加了下游研究者复现已训练管线的难度。

常用场景

经典使用场景

在机制可解释性研究领域，crosscoder-multilayer-split-activations数据集为探究大型语言模型内部表征的对齐机制提供了关键支撑。该数据集存储了原始模型的基激活张量以及经不同偏好优化算法（如DPO、GRPO、KTO、ORPO、PPO、SimPO）微调后的对齐激活张量，并支持通过多层SPARC风格交叉编码器进行训练。研究者可利用这些预计算好的激活切片，精准剖析模型在特定层窗口内的表征变化，从而理解偏好优化如何重塑神经网络的内部计算路径。这种切片式设计使得跨模型的横向比较成为可能，尤其适用于揭示不同规模与架构的语言模型在对齐过程中的共性规律与特殊行为。

解决学术问题

该数据集系统性地解决了机制可解释性研究中长期存在的两大难题：一是缺乏标准化的对齐激活数据，二是难以在多层尺度上量化训练后模型行为变化。通过提供smollm3、llama32-3b、qwen3-4b等不同规模模型的基与对齐激活张量，它使研究者能够跨越模型大小与架构差异，直接比较同一模型在偏好优化前后内部状态的重构过程。这种设计极大地促进了关于模型对齐机制的理论构建，例如探明模型是否通过学习统一的表征策略来符合人类偏好，以及不同层在价值对齐中扮演的角色。其影响在于将机制可解释性从单模型表征分析推进到多模型、多算法的系统比较层面。

实际应用

在实际应用中，crosscoder-multilayer-split-activations数据集直接服务于大模型对齐技术的工程优化与安全评估。开发团队可依据基模型与对齐模型的激活差异，快速诊断偏好优化算法是否存在表征崩塌或过度适应问题，从而迭代训练策略。此外，该数据集支持跨模型的知识迁移分析，帮助企业在引入新模型时预判其对齐难度，降低试错成本。对于监管机构而言，利用这些激活切片构建的交叉编码器能够可视化和量化模型内部价值判断的稳定性，为合规审查提供技术依据。在学术合作与开源社区中，它作为标准化基准，促进了对齐算法效果的公平比较与可重复研究。

数据集最近研究