scgpt-replogle-activations

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/matthewshu/scgpt-replogle-activations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自两个scGPT检查点的每细胞隐藏状态，这些状态是在State-Replogle-Filtered数据集的平衡样本上捕获的。样本在`(cell_line, gene)`桶中以每个桶25个细胞进行平衡。数据集旨在用于跨编码器差异分析和其他机制可解释性分析，以比较两个模型在相同输入上的表现。数据集包含约72,100个细胞，分布在2,884个桶中。数据布局包括基础模型和ESM模型的捕获，每个模型的数据分布在4个分片中，总计约625 GB。技术细节包括使用的硬件（NVIDIA H100 PCIe）、捕获层（transformer_encoder.layers.{5,7,10}）、数据类型（fp16）和压缩方式（gzip-4）。数据集还提供了预测结果和训练统计信息，适用于需要比较模型内部表示的研究。

This dataset contains per-cell hidden states from two scGPT checkpoints, captured on a balanced sample of the State-Replogle-Filtered dataset. The samples are balanced with 25 cells per `(cell_line, gene)` bucket. The dataset is intended for cross-encoder difference analysis and other mechanistic interpretability analyses to compare the performance of two models on the same inputs. The dataset contains approximately 72,100 cells distributed across 2,884 buckets. The data layout includes captures from the base model and the ESM model, with each models data distributed across 4 shards, totaling approximately 625 GB. Technical details include the hardware used (NVIDIA H100 PCIe), capture layers (transformer_encoder.layers.{5,7,10}), data type (fp16), and compression method (gzip-4). The dataset also provides prediction results and training statistics, making it suitable for research requiring comparison of internal model representations.

创建时间：

2026-05-03

原始信息汇总

数据集概述：scGPT activation captures on Replogle (base vs ESM)

数据集基本信息

数据集地址：https://huggingface.co/datasets/matthewshu/scgpt-replogle-activations
许可证：其他（license: other）
标签：单细胞、扰动预测、scGPT、激活值、机械可解释性、crosscoder
基础数据集：arcinstitute/State-Replogle-Filtered

数据集内容

该数据集包含从两个scGPT模型检查点（base和ESM）中提取的逐细胞层{5,7,10}隐藏状态，这些激活值来自于72,100个细胞的平衡样本，样本来自State-Replogle-Filtered数据集。

样本按照(cell_line, gene)桶进行平衡，每个桶包含25个细胞，总共2,884个桶。数据集的目的是用于crosscoder差分分析和其他机械可解释性研究，比较两个模型在相同输入上的表现。

数据集布局

matthewshu/scgpt-replogle-activations/ ├── README.md ├── base/ ← scGPT-base捕获（约313 GB） │ ├── shard-00000.h5 … shard-00003.h5 （4个分片，50个批次×批次大小384） │ ├── stats.h5 （每个维度的Welford运行均值和M2） │ ├── predictions.h5ad （3.78 GB，.X = 预测值，.layers["truth"] = 真实值） │ └── training_stats.json （训练轮次、wandb URL、最佳验证pearson_delta） └── esm/ ← scGPT+ESM捕获（约312 GB），相同布局

总大小：约625 GB，共14个数据文件（每侧7个）。

分片信息

分片	细胞数	布局
0	19,200	完整（50×384）
1	19,200	完整
2	19,200	完整
3	14,500	部分（最后一个批次裁剪至总计72,100）

捕获配置

两个模型运行共享以下配置：

配置项	详情
源代码提交	`7384c03`
运行命令	`python -m scripts.run scgpt --dataset replogle --split sample`
采样方式	`--sample-by cell_line,gene --sample-n-per-bucket 25 --seed 42` → 72,100个细胞，2,884个桶
样本顺序	使用`rng.permutation`随机打乱，每个分片混合了不同细胞系和扰动
捕获层	`transformer_encoder.layers.{5,7,10}`
捕获数据类型	fp16
分片大小	50个批次×批次大小384 = 19,200个细胞/分片
压缩方式	gzip-4（无损）
硬件	NVIDIA H100 PCIe（80 GB）

两个捕获的唯一区别在于模型：

base：直接加载replogle_base_ft/best_model.pt
ESM：加载replogle_esm_ft/best_model.pt，使用冻结的ESM2-15B每基因先验（scgpt_esm_prior.safetensors，5120→512线性映射）构建模型

样本顺序：打乱而非排序

较早期版本的数据集按照obs帧索引顺序存储细胞，导致每个分片100%为单一细胞系（早期分片为K562，后期为RPE1）。当前版本使用rng.permutation对桶索引进行打乱，每个分片包含接近全局比例的混合（经验上每个分片K562/RPE1约为52/48）。

确定性与base/esm对齐

使用相同的--seed 42、相同的数据预处理、相同的平衡样本桶索引
训练/验证/测试对数量在两个运行之间一致（180,021 / 8,569 / 109,207）
72,100行样本在细胞ID级别是比特一致的——仅捕获的激活值不同
每个分片中，cell_id数组在base和esm分片之间元素相等，确保crosscoder配对的一致性

文件详情

shard-NNNNN.h5

每个分片包含：

以fp16格式捕获的BTD张量，位于<capture>/<tags>/activation，形状为(B, T=1536, D=512)
每个细胞的标签：cell_id、pert、cell_index、gene_dataset_ids
每个分片的Welford累加器：count、mean、M2

stats.h5

全局每个维度的Welford累加器，跨所有分片，形状为(D,)，适用于crosscoder训练归一化。

predictions.h5ad

自包含的预测结果：

.X = 预测的对数归一化表达
.layers["truth"] = 真实值
没有额外的对照细胞

training_stats.json

包含模型来源信息：wandb运行URL、训练轮次、最佳验证pearson_delta、总训练细胞数。

数据来源

源代码仓库：mattshu0410/sc-interp
生成这些捕获的组件：Runner、HookManager、H5ActivationSink

搜集汇总

数据集介绍

构建方式

该数据集基于scGPT模型在Replogle扰动数据集上的隐藏状态激活值构建而成。研究者从arcinstitute/State-Replogle-Filtered数据集中提取了72,100个细胞的平衡样本，以(cell_line, gene)为分组单元，每个桶内均匀采样25个细胞，并通过种子42固定随机排序。分别使用scGPT-base与scGPT-ESM两个微调检查点，在同一批细胞上捕获第5、7、10层transformer编码器的隐藏状态，以fp16精度存储。数据被划分为4个分片，每个分片包含50个批次，总计约625 GB的激活值文件，确保了两模型在相同输入上的直接可比性。

使用方法

使用此数据集时，用户可通过H5文件格式读取shard-NNNNN.h5中的激活张量，其形状为(B, T=1536, D=512)，结合标签字段(cell_id, pert等)进行配对分析。stats.h5文件提供了全局均值与M2统计量，可用于激活值的标准化预处理。预测文件predictions.h5ad包含了模型预测的对数归一化表达与真实值，便于评估模型性能。由于两模型分片在行索引上完全对齐，用户可直接按位置拼接base与esm的激活数据，用于交叉编码器差异学习或特征归因分析。

背景与挑战

背景概述

scgpt-replogle-activations数据集由Matthew Shu等研究人员于近期创建，旨在为单细胞扰动预测与机械可解释性研究提供关键资源。该数据集基于scGPT和scGPT+ESM两种检查点模型，在Replogle数据集（72,100个细胞，按细胞系与基因桶平衡采样）上捕获了第5、7、10层隐藏状态。通过生成这些激活值，研究者得以进行交叉编码器差异分析，深入探究不同模型对相同输入的内部表征差异。作为连接单细胞语言模型与机械可解释性的桥梁，该数据集推动了扰动预测领域中模型透明性与生物学机制理解的发展，对未来精准医学与基因功能研究具有重要参考价值。

当前挑战

该数据集面临的挑战体现在多个层面。在领域问题层面，单细胞扰动预测的核心挑战在于如何从高维、稀疏且噪声丰富的转录组数据中准确推断特定扰动对细胞状态的影响，scGPT等模型虽表现优异，但其内部工作机制仍如“黑箱”，阻碍了生物学解释与模型改进。在构建过程中，数据集创建者需克服大规模激活捕获的计算与存储难题（约625 GB），确保多分片数据在H100 GPU上的高效产出与无损压缩；同时必须精细控制细胞样本平衡（按细胞系-基因桶采样25细胞/桶）、随机排列顺序以避免批次偏差，并保障基础版与ESM版模型在相同细胞ID上严格对齐，从而支撑准确的交叉编码器对比分析。

常用场景

经典使用场景

在单细胞转录组学与深度学习交叉的前沿领域中，scgpt-replogle-activations数据集主要服务于基于scGPT模型的机制可解释性研究。该数据集精心捕获了scGPT基础模型与ESM增强模型在72,100个经多种扰动处理的单细胞上的中间层（第5、7、10层）隐藏状态，为探究基因表达预测模型的内部表示提供了对齐性极佳的激活快照。研究者可借此开展跨编码器差异分析（crosscoder diffing），通过对比相同输入下两种模型架构的神经激活模式，揭示扰动预测任务中分子先验知识（如ESM蛋白语言模型）如何重塑细胞的语义表征空间。这一场景特别适用于需要高保真逐细胞配对数据的因果干预分析，是当前单细胞大模型透明度研究的理想试验平台。

解决学术问题

该数据集精准回应了单细胞扰动预测领域中一个长期悬而未决的核心问题：如何在保持输入一致性的前提下，对两种具有不同生物先验知识的深度生成模型进行公平且细粒度的机制对比。传统方法往往依赖全局指标（如皮尔逊相关系数）评估模型性能，却难以解释模型内部神经元如何编码细胞状态与基因扰动效应。scgpt-replogle-activations通过位次对齐的隐藏状态捕获，使得研究者能够从表示学习的角度定量分析基础scGPT与结合ESM先验的scGPT-plus在相同扰动条件下的表征差异，进而揭示预训练语言模型知识如何影响单细胞域内的特征学习。这一突破为理解深度生物学模型的行为机制提供了方法论支撑，推动了可解释人工智能在组学领域的范式革新。

实际应用

在计算生物学的实际应用中，该数据集展现了独特的工程价值，尤其适用于构建基于稀疏自编码器（SAE）和跨编码器的单细胞表示监控系统。由于数据集在采集时已充分排除了批次效应（通过随机排列的采样策略确保每个分片中细胞系比例接近全局分布），下游训练可以免去全局重排的复杂数据加载逻辑，直接进行独立同分布假设下的高效批次训练。具体场景包括：对scGPT模型在药物筛选过程中响应特定基因扰动时的隐含表征进行实时监控，利用捕获到的中间激活训练特征归因模型以识别关键的细胞状态变化维度，或通过跨编码器对齐技术实现不同版本模型间的表示迁移分析。这些能力使得该数据集成为连接前沿深度学习模型与临床前药物研发、精准医学等转化研究的桥梁。

数据集最近研究