theislab/temp

Name: theislab/temp
Creator: theislab
Published: 2026-05-06 17:10:34
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/theislab/temp

下载链接

链接失效反馈

官方服务：

资源简介：

TEMP数据集包含经过处理的标准化表达`.h5ad`文件和来自允许重新分发的TEMP数据集的差异基因表达（DGE）`.h5ad`输出。该数据集分为处理后的输入文件和DGE输出文件，每个数据集都有特定的目录结构。处理后的输入文件包括来自不同来源的标准化表达数据，如NCBI/GEO公共数据、MIT许可的数据等。DGE输出文件则按照不同的复制模式（`group_rep`和`sep_rep`）组织，包含针对不同细胞系或上下文的处理与对照对比。数据集整体遵循CC BY 4.0许可，同时每个上游数据集保留其原始许可和引用要求。

The TEMP dataset contains processed standardized expression `.h5ad` files and differential gene expression (DGE) `.h5ad` outputs from TEMP datasets whose upstream terms allow redistribution. The dataset is organized into processed input files and DGE outputs, with specific directories for each. Processed input files include standardized expression data from various sources such as NCBI/GEO public data, MIT-licensed data, etc. DGE output files are organized by different replicate modes (`group_rep` and `sep_rep`) and contain treatment-vs-control contrasts for various cell lines or contexts. The overall dataset is released under CC BY 4.0, while each upstream dataset retains its original license and attribution requirements.

提供机构：

theislab

搜集汇总

数据集介绍

构建方式

TEMP数据集的构建源于对多个公开转录组学数据源的系统性整合与标准化处理。研究者从LINCS L1000 Phase I/II（GEO GSE92742与GSE70138）、Novartis DRUG-seq、OP3、scPerturb Sci-Plex 3、Tahoe-100M以及VCPI等八个上游数据集中，采集了经过质量控制的批量或伪批量表达谱，并将其统一转换为具有标准观测元数据的AnnData（.h5ad）格式。每个数据集均保留了对应的处理组与对照组样本，随后利用一致的差异基因表达（DGE）分析流程，基于两种复制模式——“group_rep”（合并全部重复）和“sep_rep”（各重复独立分析）——分别生成对比结果。所有DGE输出按数据集与细胞系/上下文组织，最终形成包含316个DGE文件的标准化集合，并通过详细的清单文件（manifest）记录每个文件的来源与许可信息。

使用方法

用户可通过Hugging Face仓库直接下载TEMP数据集，获取路径以数据集名称（如l1000_phase1/）与复制模式（group_rep/或sep_rep/）为层级组织。处理后的输入.h5ad文件适用于构建标准化表达矩阵、训练扰动响应预测模型或进行跨数据集的批次校正分析。DGE文件则可用于精准提取特定细胞系在特定处理下的差异表达基因列表，其.layers中存储的丰富统计量直接支持下游的富集分析、通路活性评分或元分析。建议在加载时利用scanpy等工具读取AnnData对象，并依据upload_manifest.tsv与dge_upload_manifest.tsv核对数据的来源与许可条款，以确保合规引用与归属。

背景与挑战

背景概述

TEMP数据集于近年由多家研究机构联合构建，核心旨在标准化整合来自LINCS L1000、Novartis DRUG-seq、scPerturb及Virtual Cell Pharmacology Initiative等项目的转录组扰动响应数据，为差异基因表达（DGE）分析提供统一处理后的.h5ad格式文件。该数据集覆盖了从批量测序到单细胞衍生伪批量数据的多尺度表达谱，并附有跨重复模式的DGE统计结果，显著降低了跨平台数据整合的复杂性。作为开放科学资源，TEMP推动了药物基因组学与扰动生物学中可重复性研究的进展，成为评估基因表达扰动规律的关键基准。

当前挑战

该数据集所解决的领域核心挑战在于如何统一来自不同实验平台（如L1000、DRUG-seq）和不同处理协议（如批次效应、剂量时间变量）的基因表达谱，以支持可靠的治疗-对照对比分析。构建过程中面临多重技术难题：包括处理多源数据在格式、基因注释及质量控制标准上的异质性，确保伪批量数据内细胞数量与基因表达统计的有效性，以及协调各上游数据集不同的许可协议以合法重新分发。此外，DGE分析中跨对比的多次假设检验校正也增加了统计推断的复杂性。

常用场景

经典使用场景

在基因表达谱分析与药物反应预测领域，TEMP数据集凭借其涵盖LINCS、NOVARTIS和SCIPLEX等多个大规模扰动实验的标准化表达数据，成为构建扰动反应预测模型的经典基准。研究者可基于h5ad文件中的标准化表达矩阵与扰动元数据，对基因表达扰动前后的变化规律进行建模，从而发现药物或基因编辑对细胞状态的影响机制。

解决学术问题

TEMP解决了跨平台、跨条件扰动转录组数据整合与复现性评估这一长期困扰学界的难题，为差异基因表达分析提供了清晰的双重复现模式（group_rep与sep_rep）。该数据集的系统性标准化处理消除了批次效应，支持学者进行稳健的扰动响应推断，推动了药物靶点发现与功能基因组学方法学的发展。

实际应用

在药物研发与精准医学实践中，TEMP数据集可直接服务于化合物筛选与毒性预测任务。制药企业可借助其丰富的药物-基因扰动对比结果，快速甄别候选药物的脱靶效应和有效治疗窗口。同时，该集合支持细胞系-药物耦合分析，为临床前联合用药策略的理性设计提供了数据驱动的决策依据。

数据集最近研究