perturbench
收藏Hugging Face2025-05-16 更新2025-05-17 收录
下载链接:
https://huggingface.co/datasets/altoslabs/perturbench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于支持研究工作“Perturbench: Benchmarking machine learning models for cellular perturbation analysis”,包含了用于细胞扰动分析的机器学习模型基准测试的数据。数据来源于五篇科学出版物,涉及单细胞表型的遗传交互多维空间探索、单细胞分辨率的化学转录组学、患者模型中癌症免疫逃逸机制的多元模式扰动-CITE-seq筛选、可扩展单细胞扰动筛选用于分子路径签名重建以及针对靶向治疗的激酶依赖性响应的_multiplex_单细胞化学基因组学。但README文件中未直接描述数据集的具体内容、结构或数据类型。
This dataset supports the research work titled "Perturbench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis", and contains data for benchmarking machine learning models in cellular perturbation analysis. The data is sourced from five scientific publications, covering multidimensional spatial exploration of genetic interactions in single-cell phenotypes, single-cell resolution chemical transcriptomics, multimodal perturbation-CITE-seq screening of cancer immune escape mechanisms in patient-derived models, scalable single-cell perturbation screening for molecular pathway signature reconstruction, and multiplex single-cell chemogenomics targeting kinase-dependent responses to targeted therapies. However, the README file does not directly describe the specific content, structure, or data types of the dataset.
创建时间:
2025-05-15
原始信息汇总
数据集概述
基本信息
- 许可证: CC-BY-4.0
- 数据集用途: 用于研究论文《Perturbench: Benchmarking machine learning models for cellular perturbation analysis》中的数据。
数据来源
数据来源于以下出版物:
- Norman, T. M., 等 (2019). Exploring genetic interaction manifolds constructed from rich single-cell phenotypes. Science, 365(6455):786–793.
- Srivatsan, S. R., 等 (2020). Massively multiplex chemical transcriptomics at single-cell resolution. Science, 367(6473):45–51.
- Frangieh, C. J., 等 (2021). Multimodal pooled Perturb-CITE-seq screens in patient models define mechanisms of cancer immune evasion. Nat. Genet., 53(3):332–341.
- Jiang, L., 等 (2024a). Systematic reconstruction of molecular pathway signatures using scalable single-cell perturbation screens. bioRxiv, page 2024.01.29.576933.
- McFaline-Figueroa, J. L., 等 (2024). Multiplex single cell chemical genomics reveals the kinase dependence of the response to targeted therapy. Cell Genomics, 4(2).
搜集汇总
数据集介绍

构建方式
Perturbench数据集通过整合多篇前沿研究文献中的单细胞扰动数据构建而成。其核心数据来源于Norman等人关于遗传相互作用流形的研究、Srivatsan团队的大规模化学转录组学分析、Frangieh课题组的多模式扰动筛选,以及Jiang和McFaline-Figueroa团队最新发表的单细胞扰动图谱。这些数据采用高通量单细胞测序技术获取,涵盖遗传扰动、化学扰动和免疫治疗响应等多种干预模式,通过统一的质量控制和标准化流程进行集成。
特点
该数据集最显著的特点是实现了跨实验平台的多模态数据融合,包含基因表达谱、表面蛋白标记和遗传扰动响应等多维特征。其独特价值在于整合了患者来源模型和体外培养系统的平行数据,同时覆盖基础研究与临床前模型。数据标注体系完整,包含精确的扰动条件、细胞类型注释和表型测量指标,为研究细胞状态转换机制提供了系统性的基准资源。
使用方法
使用者可通过HuggingFace平台获取标准化的h5ad文件格式数据,该格式兼容Scanpy等主流单细胞分析工具链。典型应用场景包括:利用内置的基准任务评估机器学习模型在扰动预测中的表现;通过跨数据集比较验证新算法的泛化能力;或提取特定扰动条件下的特征子集进行机制研究。为保障可重复性,建议参考原始文献中的预处理步骤,并利用数据集提供的元数据字段进行条件筛选。
背景与挑战
背景概述
Perturbench数据集诞生于细胞扰动分析领域快速发展的关键时期,由多篇发表于《Science》、《Nature Genetics》等顶级期刊的研究成果整合而成。该数据集汇聚了Norman等人关于单细胞表型遗传互作的研究、Srivatsan团队的大规模化学转录组学数据、Frangieh课题组在癌症免疫逃逸机制方面的突破性发现,以及Jiang和McFaline-Figueroa等团队在单细胞扰动筛选技术上的创新成果。这些研究共同构建了一个系统评估机器学习模型在细胞扰动响应预测中表现的多模态基准平台,为计算生物学和精准医学研究提供了重要基础设施。
当前挑战
该数据集面临的核心挑战体现在两个维度:在科学问题层面,如何准确量化基因扰动与细胞状态变化的复杂非线性关系,特别是处理药物组合处理产生的协同效应;在技术实现层面,需要解决多源异构数据的标准化整合问题,包括不同实验平台产生的单细胞RNA测序数据、CITE-seq蛋白组学数据以及化学基因组学数据的跨模态对齐。数据稀疏性和批次效应的校正也构成显著挑战,这对机器学习模型的鲁棒性提出了更高要求。
常用场景
经典使用场景
在单细胞转录组学和细胞扰动分析领域,perturbench数据集为研究人员提供了一个标准化的基准测试平台。该数据集整合了多种单细胞扰动实验数据,包括基因敲除、化学药物处理等干预手段下的细胞反应谱,使得研究者能够系统地评估不同机器学习模型在预测细胞状态变化方面的性能。其典型应用场景包括构建基因调控网络推断模型、优化药物敏感性预测算法,以及开发单细胞数据降维和特征提取的新方法。
实际应用
该数据集在生物医药领域展现出重要的转化价值。制药企业可利用其构建的基准体系加速药物靶点发现流程,通过机器学习模型预测化合物对特定细胞亚群的影响。临床研究人员则借助该数据集建立肿瘤微环境扰动响应模型,为个性化治疗方案提供决策支持。在合成生物学领域,这些数据为设计基因线路提供了真实的细胞响应参考。
衍生相关工作
基于perturbench数据集已催生多项创新性研究。在方法学层面,衍生出针对单细胞扰动数据的图神经网络架构PertGNN、多任务学习框架SCPert等代表性工作。应用研究方面,该数据集支撑了癌症免疫逃逸机制解析、激酶抑制剂响应预测等突破性成果。相关算法已被整合进Scanpy、Seurat等主流单细胞分析工具链,形成从基础研究到工具开发的完整创新生态。
以上内容由遇见数据集搜集并总结生成



