Rosetta-Activations

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/james-ra-henry/Rosetta-Activations

下载链接

链接失效反馈

官方服务：

资源简介：

Rosetta Activations是一个用于跨架构机制可解释性研究的对比激活提取数据集。它包含17个语义概念在33个不同语言模型上的激活表示，支持探针训练、Procrustes对齐和跨模型几何比较，无需重新运行推理。数据集主要提供两种激活数据：峰值层对比激活和全层激活，用于深度匹配分析。每个概念基于250个训练对（来自Rosetta_Concept_Pairs v1语料库的训练分割），采用最后一个非填充令牌进行池化。17个语义概念涵盖代理性、授权、因果关系、确定性、可信度、欺骗、数据渗出、正式性、道德效价、否定、复数、讽刺、情感、具体性、时间顺序、威胁严重性和紧急性等维度。模型覆盖广泛，包括Pythia、GPT-2、OPT、Qwen2.5、Llama 3.1/3.2、Mistral、Gemma-2和Phi等多个系列，总计33个模型，参数规模从7000万到140亿不等，并标注了注意力机制类型（如MHA、GQA）。数据集以NumPy数组（.npy）和JSON元数据格式提供，包含完整的提取来源信息，还包括模型快照存档用于可重复性，以及聚合分析结果。适用于概念向量分析、探针研究、跨模型表示对齐和机制可解释性等任务。

Rosetta Activations is a comparative activation extraction dataset for cross-architectural mechanism interpretability research. It contains activation representations for 17 semantic concepts across 33 different language models, supporting probe training, Procrustes alignment, and cross-model geometric comparisons without the need to re-run inference. The dataset primarily includes two types of activation data: peak-layer comparative activations and full-layer activations, used for deep matching analysis. Each concept utilizes 250 training pairs (from the training split of the Rosetta_Concept_Pairs v1 corpus), with pooling applied to the last non-padding token. The 17 semantic concepts cover dimensions such as agency, authority, causality, certainty, credibility, deception, data exfiltration, formality, moral valence, negation, plurality, sarcasm, sentiment, specificity, temporal order, threat severity, and urgency. Model coverage is extensive, including series such as Pythia, GPT-2, OPT, Qwen2.5, Llama 3.1/3.2, Mistral, Gemma-2, and Phi, totaling 33 models with parameter sizes ranging from 70 million to 14 billion, and annotated with attention mechanism types (e.g., MHA, GQA). The dataset is provided in NumPy array (.npy) and JSON metadata formats, including complete extraction source information, along with model snapshot archives for reproducibility and aggregated analysis results. It is suitable for tasks such as concept vector analysis, probe studies, cross-model representation alignment, and mechanism interpretability.

创建时间：

2026-05-10

搜集汇总

数据集介绍

构建方式

Rosetta-Activations数据集面向机械可解释性研究，基于17个语义概念，从33个不同架构的语言模型中提取对比激活值。每个概念包含250个正负样本对，采用最后非填充标记池化策略，存储为float32类型的numpy数组。原始激活数据以calibration_{concept}.npy和calibration_alllayer_{concept}.npy格式组织，分别保存峰值层和全层激活值，并附带元数据JSON记录提取来源、模型架构、语料版本及参数信息。

特点

该数据集覆盖Pythia、GPT-2、OPT、Qwen2.5、Llama、Mistral、Gemma-2及Phi等主流模型系列，包含多头注意力、分组查询注意力及混合注意力机制等架构类型。每个模型目录提供CAZ分离曲线、GEM交接层、消融实验对比及激活修补等完整分析结果JSON文件，直接再现论文实验。此外，通过model_snapshots目录存档历史提取版本，确保研究可复现性。

使用方法

用户可直接加载.npy文件训练探针或执行Procrustes对齐，例如使用np.load读取peak层激活后按正负样本划分。所有层激活数据支持深度匹配分析，可通过层索引切片获取特定隐藏状态。分析结果JSON用于评估概念分离效果、跨模型泛化能力及架构差异，无需重复推理即可复现论文核心结论。配套概念对语料库Rosetta_Concept_Pairs提供细粒度语义标注，便于扩展研究。

背景与挑战

背景概述

Rosetta-Activations数据集由James Henry等人于2024年发布，旨在推动跨架构的机械可解释性研究。该数据集聚焦于语言模型内部对语义概念的编码机制，通过提取17个语义概念（如能动性、因果性、讽刺等）在33个不同架构（包括Pythia、GPT-2、OPT、Qwen2.5、Llama等）的语言模型中的对比激活值，为探究模型如何表征高层语义知识提供了标准化资源。其核心研究问题在于揭示不同规模与架构的语言模型在概念表征上的共性与差异，尤其是通过对比激活分析和探测方法量化概念分离度与层间传递机制。该数据集贡献了一套完整的分析框架，包括CAZ分离曲线、GEM层级传递评估以及消融实验等，显著降低了可解释性研究的复现门槛，对理解Transformer模型的内部表征机理具有重要价值。

当前挑战

该数据集所解决的领域挑战集中于语言模型内部语义概念表征的可解释性难题。具体而言，现有方法难以跨架构直接比较概念编码方式，Rosetta-Activations通过标准化激活提取和Procrustes对齐技术，使研究者能在不同模型间进行公平对比。构建过程中的主要挑战包括：确保概念对样本的语义纯净性与对比性，需精细设计对抗样本以避免混淆特征；处理多架构间的维度不匹配问题，如MHA（如Pythia）与GQA（如Qwen2.5）架构的隐藏层维度差异显著，需统一数据格式同时保留架构特异性；此外，大规模激活数据的存储与版本管理（如模型快照归档）也要求高效的文件结构与元数据记录，以保证实验的可重复性。

常用场景

经典使用场景

Rosetta-Activations数据集为跨架构的语言模型机械可解释性研究提供了标准化的对比激活提取资源。其核心使用场景在于利用17个语义概念（如能动性、欺骗性、情感极性等）的对比激活对，在33个不同架构（包括MHA、GQA、交替注意力机制）的语言模型上进行探针训练、Procrustes对齐与激活分析。研究者可通过该数据集直接获取每个概念在峰值层或所有层的原始激活张量，从而无需重新运行模型推理即可复现CAZ分离曲线、GEM交接层探测、消融对比与激活修补等经典分析流程。该资源尤其适合跨模型比较语义表征的层级分布、验证概念向量的线性可分性以及探索不同架构间概念表示的保守性。

实际应用

在实际应用中，Rosetta-Activations为安全对齐与内容审查提供了精细化的可解释性工具。例如，利用该数据集训练的探针可实时检测模型输出中隐藏的欺骗性语句、数据泄露意图或威胁严重性，从而增强AI系统的安全监控能力。概念向量还可用于引导模型行为的可控生成，例如通过调整‘正式性’或‘紧迫性’维度的激活强度，使对话系统在客服场景中自动切换语气风格。此外，跨架构的概念对齐结果可辅助模型开发者诊断不同部署版本间的表示偏移，确保在模型迭代过程中关键语义功能（如拒绝有害请求）的稳健性。

衍生相关工作

基于Rosetta-Activations数据集已催生了一系列具有影响力的下游工作。其中，CAZ框架提出了基于对比激活分离度的概念可解释性度量，为跨层语义分析提供了量化工具。GEM方法则通过跨层激活稳定性分析，揭示了概念表示从低层基础特征向高层语义表征的渐进式传递模式，该发现已被后续研究用于改进模型的稀疏自编码器训练。此外，消融比较与激活修补分析的标准化流程，为鲁棒性概念定位提供了可复现的基准，这些方法已广泛被应用于检索增强生成中关键概念的保护性调控，以及多模态模型中语义概念的统一表征研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集