creditscope-activations-v2
收藏Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/sarel/creditscope-activations-v2
下载链接
链接失效反馈官方服务:
资源简介:
CreditScope Activations v2 是一个用于训练稀疏自编码器(SAEs)和混合专家转码器(TCs)的数据集,包含从 Qwen/Qwen3.5-35B-A3B 模型(BF16 精度)捕获的激活数据。数据集涵盖了模型的不同层(0、10、30、39)的残差流输入和输出,总计 360,002 个令牌。数据以 float16 格式存储,每个层的数据分为多个 chunk 文件,并包含归一化统计信息和捕获配置。所有激活数据均通过健康检查,确保无 inf/nan 值,且标准差在合理范围内。数据集适用于特征提取任务,特别是电路追踪和稀疏自编码器的训练。
CreditScope Activations v2 is a dataset intended for training Sparse Autoencoders (SAEs) and Mixture-of-Experts Transcoders (TCs). It contains activation data captured from the Qwen/Qwen3.5-35B-A3B model with BF16 precision. The dataset covers residual stream inputs and outputs from distinct layers (0, 10, 30, 39) of the model, totaling 360,002 tokens. All data is stored in float16 format, with the data for each layer split into multiple chunk files, and includes normalization statistics and capture configurations. Every piece of activation data has passed health checks to guarantee no inf/nan values and standard deviations within reasonable ranges. This dataset is applicable to feature extraction tasks, especially circuit tracing and the training of Sparse Autoencoders.
创建时间:
2026-03-25
原始信息汇总
CreditScope Activations v2 数据集概述
数据集基本信息
- 数据集名称: CreditScope Activations v2
- 主要用途: 用于训练稀疏自编码器和MoE转码器的新鲜激活捕获数据。
- 来源模型: Qwen/Qwen3.5-35B-A3B (BF16格式,约需65GB显存)
- 模型架构: 40个解码器层,d_model=2048,256个专家,top-8路由
- 文本数据源: 数据集
sarel/creditscope-fino1-activations中的文本列 - 捕获的层: 第0、10、30、39层
- 总令牌数: 360,002
- 数据类型: float16
数据内容与格式
数据存储在 activations/ 目录下,结构如下:
layer_{N}_residual_pre/: 第N层输入前的残差流(MoE/注意力层的输入)layer_{N}_residual_post/: 第N层输出后的残差流(MoE/注意力层的输出)normalization_stats.json: 每层的均值/标准差统计信息capture_config.json: 收集参数
每个层目录下包含多个 .npy 文件(例如 chunk_0000.npy),每个文件的形状约为 [~50000, 2048],数据类型为 float16。
数据质量与健康检查
所有激活数据均已通过健康检查:
- 所有数据块均无无穷大或非数值。
- 各层内数据块间标准差高度一致(std_of_stds < 0.003)。
- 各层激活统计信息如下:
| 层 | 输入前标准差 | 输出后标准差 | 数值范围 |
|---|---|---|---|
| 0 | 9.86e-03 | 2.01e-02 | [-0.30, 0.99] |
| 10 | 5.41e-02 | 1.37e-01 | [-3.0, 37.8] |
| 30 | 1.76e-01 | 1.92e-01 | [-16.9, 37.8] |
| 39 | 3.98e-01 | 5.21e-01 | [-13.7, 99.0] |
- 跨层最大/最小标准差比值为52.9倍,属正常现象(残差流随层数增加而增长)。
版本说明
此v2版本用于修复v1版本中因FP8反量化问题导致的激活数据损坏(标准差约为10^10而非正常的~0.1)。v2版本直接通过transformers加载BF16模型,并应用了正确的 causal_conv1d 补丁。



