dare-activations

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/jrosseruk/dare-activations

下载链接

链接失效反馈

官方服务：

资源简介：

DARE Activation Cache 数据集包含用于训练文档和行为查询的中层残差流激活数据，源自 GaloisTheory123/dare-data 仓库。数据集主要分为两部分：训练文档激活和查询激活。训练文档激活部分包含基础模型（allenai/OLMo-3-1025-7B）和自定义 SFT 适配器（GaloisTheory123/dare-adapter/split-1）的激活数据，文件格式为 Parquet，包含字段：doc_idx、split、final_token_activation 和 mean_activation。查询激活部分同样包含基础模型和自定义 SFT 适配器的激活数据，字段包括 query_id、behavior、final_token_activation 和 mean_activation。数据提取细节包括：层索引为 16（中层），隐藏维度为 4096，最大序列长度为 8192，精度为 float32（从 bfloat16 模型提取）。该数据集适用于模型行为分析和激活模式研究。

The DARE Activation Cache dataset contains middle-layer residual stream activation data for training documents and behavioral queries, sourced from the GaloisTheory123/dare-data repository. The dataset is primarily divided into two subsets: training document activations and query activations. The training document activations subset includes activation data from both the base model (allenai/OLMo-3-1025-7B) and the custom SFT adapter (GaloisTheory123/dare-adapter/split-1). The files are stored in Parquet format, with the following fields: doc_idx, split, final_token_activation and mean_activation. The query activations subset also contains activation data from the base model and the custom SFT adapter, with fields including query_id, behavior, final_token_activation and mean_activation. The data extraction details are as follows: the layer index is 16 (middle layer), the hidden dimension is 4096, the maximum sequence length is 8192, and the precision is float32 (extracted from bfloat16 models). This dataset is suitable for model behavior analysis and activation pattern research.

创建时间：

2026-03-01

原始信息汇总

DARE Activation Cache 数据集概述

数据集基本信息

数据集名称: DARE Activation Cache
托管地址: https://huggingface.co/datasets/jrosseruk/dare-activations
许可证: apache-2.0
标签: dare, olmo, activations

数据集内容描述

本数据集包含用于训练文档和行为查询的中间层残差流激活数据，源自数据集 GaloisTheory123/dare-data。

数据文件与结构

训练文档激活数据

文件路径	对应模型	描述
`base/activations.parquet`	`allenai/OLMo-3-1025-7B`	基础模型激活数据
`custom_sft/activations.parquet`	`GaloisTheory123/dare-adapter/split-1`	custom_sft 适配器（split-1）激活数据

数据列:

doc_idx
split
final_token_activation
mean_activation

查询激活数据

文件路径	对应模型	描述
`base/query_activations.parquet`	`allenai/OLMo-3-1025-7B`	基础模型查询激活数据
`custom_sft/query_activations.parquet`	`GaloisTheory123/dare-adapter/split-1`	custom_sft 适配器（split-1）查询激活数据

数据列:

query_id
behavior
final_token_activation
mean_activation

检查日志与假设文件

路径	描述
`logs/base/*.eval`	基础模型的评估日志
`logs/sft/*.eval`	SFT 模型的评估日志
`logs/custom_sft/*.eval`	自定义 SFT 模型的评估日志
`hypotheses/*.jsonl`	生成的行为假设

数据提取细节

层索引: 16（中间层）
隐藏维度: 4096
最大序列长度: 8192
精度: float32（从 bfloat16 模型提取）

使用示例

python from datasets import load_dataset

加载训练文档激活数据

base_acts = load_dataset("jrosseruk/dare-activations", data_files="base/activations.parquet", split="train") csft_acts = load_dataset("jrosseruk/dare-activations", data_files="custom_sft/activations.parquet", split="train")

加载查询激活数据

base_q = load_dataset("jrosseruk/dare-activations", data_files="base/query_activations.parquet", split="train") csft_q = load_dataset("jrosseruk/dare-activations", data_files="custom_sft/query_activations.parquet", split="train")

搜集汇总

数据集介绍

构建方式

在语言模型可解释性研究领域，DARE Activation Cache 数据集通过提取特定中间层的残差流激活值构建而成。其构建过程基于 OLMo-3-1025-7B 基础模型及其经过定制监督微调的适配器版本，针对训练文档与特定行为查询，在模型的第16层（中间层）捕获了隐藏维度为4096的激活状态。数据提取时采用了高达8192的最大序列长度，并以float32精度从原始的bfloat16模型中进行转换，最终生成了包含文档索引、分割信息以及最终令牌激活与平均激活向量的结构化Parquet文件。

特点

该数据集的核心特点在于其专注于模型内部表征的动态捕捉，为分析模型在不同训练阶段的行为差异提供了高维度的中间层激活快照。它系统性地包含了基础模型与经过定制微调后适配器模型的并行激活数据，使得研究者能够直接对比模型在相同输入下内部表征的变化。数据集不仅涵盖了用于模型训练的大量文档，还特别包含了一组针对特定行为设计的查询，并辅以详细的评估日志和生成的行为假设文件，为深入探究模型决策机制与行为归因构建了一个多维度的分析基础。

使用方法

研究者可利用 Hugging Face `datasets` 库便捷地加载此数据集的不同组成部分。通过指定对应的数据文件路径，可以分别获取基础模型或定制微调模型关于训练文档的激活数据，以及它们对行为查询的响应激活。加载后的数据以标准化的表格形式呈现，包含文档索引、查询标识、行为类别及具体的激活向量，便于进行后续的统计分析、可视化或作为下游可解释性任务的输入。配套的评估日志与假设文件则为定性分析模型行为提供了额外的上下文与验证材料。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域展现出卓越的性能，其内部工作机制的解析逐渐成为研究焦点。DARE Activation Cache数据集由GaloisTheory123等研究人员于近期构建，旨在提供OLMo-3-1025-7B模型及其适配器变体在中间层残差流上的激活值。该数据集的核心研究问题聚焦于模型内部表征的动态变化，特别是通过对比基础模型与经过特定指令微调后模型的激活模式，以揭示模型行为调整的机制。这一资源为可解释性研究提供了关键数据支持，有助于深入理解模型在训练文档与行为查询任务中的表征演化，对推动人工智能透明化与安全性具有重要影响力。

当前挑战

在大型语言模型的可解释性研究中，准确捕捉并分析模型内部激活模式面临显著挑战。一方面，该领域需解决如何从高维、复杂的激活空间中提取有意义的语义特征，以关联模型行为与内部计算过程；另一方面，数据集的构建过程涉及技术难题，包括从大规模模型中高效提取中间层激活值、处理高达8192的最大序列长度，并在保持float32精度的同时管理庞大的数据维度。此外，确保不同模型变体（如基础模型与微调适配器）激活数据的可比性与一致性，也对数据采集与标注流程提出了严格要求。

常用场景

经典使用场景

在大型语言模型的可解释性研究中，dare-activations数据集提供了OLMo模型中间层残差流的激活值，这些数据源自训练文档和特定行为查询。研究者通过分析这些激活模式，能够深入探索模型在微调前后内部表征的动态变化，从而揭示模型决策的潜在机制。该数据集尤其适用于对比基础模型与经过定制监督微调后模型在相同输入下的激活差异，为理解模型行为提供了实证基础。

实际应用

在实际应用中，dare-activations数据集可用于构建和验证针对大型语言模型的诊断工具，例如开发激活层面的异常检测系统或评估模型对敏感查询的响应一致性。工程团队能够利用这些数据优化微调策略，通过分析激活差异来调整训练过程，以提升模型在特定任务上的鲁棒性和安全性，从而支持更可靠的AI系统部署。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在激活工程与模型编辑领域，例如基于激活模式的行为假设生成与验证，以及利用激活差异进行针对性模型干预的研究。这些工作扩展了数据集的应用范围，推动了如激活裁剪、表征对齐等技术的发展，为后续构建可解释且可控的语言模型提供了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集