five

X-Atlas-Orion

收藏
Hugging Face2026-01-28 更新2026-01-29 收录
下载链接:
https://huggingface.co/datasets/slaf-project/X-Atlas-Orion
下载链接
链接失效反馈
官方服务:
资源简介:
X-Atlas Orion数据集是一个Perturb-seq图谱,包含两个针对所有人类蛋白质编码基因(n = 18,903基因)的基因组范围Fix-Cryopreserve-ScRNAseq(FiCS)Perturb-seq筛选数据。数据集由八百万个HCT116和HEK293T细胞组成,每个细胞深度测序至中位数16,000个唯一分子标识符(UMIs)。HCT116细胞的中位数靶向敲除效率为75.4%,HEK293T细胞为51.5%,每个扰动至少有140个细胞的中位数。此版本以SLAF(稀疏惰性数组格式)提供相同数据,以便与SLAF工具兼容。数据集采用CC-BY-NC-SA-4.0许可,适用于生物学、基因组学和单细胞RNA测序研究。

The X-Atlas Orion dataset is a Perturb-seq atlas containing two genome-scale Fix-Cryopreserve-ScRNAseq (FiCS) Perturb-seq screening datasets targeting all human protein-coding genes (n = 18,903 genes). The dataset consists of 8 million HCT116 and HEK293T cells, with each cell deeply sequenced to a median of 16,000 unique molecular identifiers (UMIs). The median targeted knockout efficiency is 75.4% for HCT116 cells and 51.5% for HEK293T cells, with a median of at least 140 cells per perturbation. This release provides the same dataset in Sparse Lazy Array Format (SLAF) to ensure compatibility with SLAF tools. The dataset is licensed under CC-BY-NC-SA-4.0, and is suitable for research in biology, genomics, and single-cell RNA sequencing.
创建时间:
2026-01-21
原始信息汇总

X-Atlas Orion 数据集概述

基本信息

  • 数据集名称: X-Atlas-Orion (SLAF Format)
  • 发布者: slaf-project
  • 原始数据生成者: Xaira Therapeutics
  • 原始数据集: Xaira-Therapeutics/X-Atlas-Orion
  • 许可协议: CC-BY-NC-SA-4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0)
  • 标签: biology, genomics, RNA, single-cell, lance, slaf
  • 语言: 英语

数据集描述

X-Atlas/Orion 是一个 Perturb-seq 图谱,包含两个针对所有人类蛋白质编码基因(n = 18,903 个基因)的全基因组 Fix-Cryopreserve-ScRNAseq (FiCS) Perturb-seq 筛选。该数据集包含八百万个 HCT116 和 HEK293T 细胞,每个细胞均经过深度测序,每个细胞的中位数独特分子标识符 (UMI) 为 16,000 个。HCT116 细胞的中位数靶向敲低效率为 75.4%,HEK293T 细胞为 51.5%,每次扰动的中位数细胞数至少为 140 个。此版本以 SLAF 格式提供相同数据,以兼容 SLAF 工具。

数据格式与配置

  • 当前发布格式: SLAF (Sparse Lazy Array Format)
  • 原始格式: Parquet 文件
  • 数据配置:
    • 配置名称: default
    • 数据文件:
      • 分割: HCT116
        • 路径: data/HCT116/**
      • 分割: HEK293T
        • 路径: data/HEK293T/**

引用信息

原始文献引用:

@article{huang2025xatlasorion, title={X-Atlas/Orion: Genome-wide Perturb-seq Datasets via a Scalable Fix-Cryopreserve Platform for Training Dose-Dependent Biological Foundation Models}, author={Huang, Ann C and Hsieh, Tsung-Han S and Zhu, Jiang and Michuda, Jackson and Teng, Ashton and Kim, Soohong and Rumsey, Elizabeth M and Lam, Sharon K and Anigbogu, Ikenna and Wright, Philip and Ameen, Mohamed and You, Kwontae and Graves, Christopher J and Kim, Hyunsung John and Litterman, Adam J and Sit, Rene V and Blocker, Alex and Chu, Ci}, journal={bioRxiv}, year={2025}, url={https://www.biorxiv.org/content/10.1101/2025.06.11.659105v1} }

使用方法

此数据集采用 SLAF 格式,使用 Lance 表格式进行存储。

使用 SLAF 格式(推荐)

bash pip install slafdb

python hf_path = hf://datasets/slaf-project/X-Atlas-Orion from slaf import SLAFArray slaf_hct116 = SLAFArray(f"{hf_path}/data/HCT116") slaf_hct116.query("SELECT * FROM cells LIMIT 10")

直接使用 Lance

bash pip install pylance

python hf_path = hf://datasets/slaf-project/X-Atlas-Orion import lance lance_hct116_ds = lance.dataset(f"{hf_path}/data/HCT116/cells.lance") lance_hct116_ds.sample(10)

搜集汇总
数据集介绍
main_image_url
构建方式
在单细胞转录组学领域,X-Atlas-Orion数据集通过创新的Fix-Cryopreserve-ScRNAseq(FiCS)平台构建而成。该平台采用高通量Perturb-seq技术,针对人类全部蛋白质编码基因(共计18,903个基因)进行了系统性扰动筛选。研究团队分别对HCT116和HEK293T两种细胞系实施了全基因组范围的扰动实验,累计捕获了八百万个单细胞,每个细胞的中位测序深度达到16,000个独特分子标识符,确保了数据的全面性与可靠性。
特点
该数据集的核心特征在于其前所未有的规模与精度,涵盖了人类几乎所有蛋白质编码基因的扰动表达谱。数据集中位敲低效率在HCT116细胞中高达75.4%,在HEK293T细胞中为51.5%,且每个扰动条件下平均捕获至少140个细胞,为剂量依赖性分析提供了坚实基础。本次发布的数据采用SLAF稀疏懒加载数组格式存储,兼容Lance列式存储引擎,显著优化了大规模基因组数据的高效访问与计算性能。
使用方法
研究人员可通过slafdb或pylance两种技术栈访问该数据集。推荐使用slafdb库进行SLAF格式的原生操作,通过指定HuggingFace路径即可加载HCT116或HEK293T子集,并执行类SQL查询以探索细胞级数据。若需直接操作底层存储,则可借助pylance库读取Lance格式文件,实现灵活的数据采样与分析。这两种方法均支持在分布式计算环境中高效处理海量单细胞转录组数据。
背景与挑战
背景概述
在单细胞转录组学领域,大规模扰动筛选技术正以前所未有的深度解析基因功能与细胞状态。X-Atlas-Orion数据集由Xaira Therapeutics的研究团队于2025年构建并发布,其核心研究问题在于通过高通量Fix-Cryopreserve-ScRNAseq平台,系统性地探究人类所有蛋白质编码基因在细胞水平上的扰动效应。该数据集涵盖了HCT116和HEK293T两种细胞系,总计八百万个细胞的深度测序数据,为训练剂量依赖性生物基础模型提供了关键资源,显著推动了功能基因组学与计算生物学的发展。
当前挑战
该数据集旨在解决单细胞扰动测序中基因功能注释与剂量效应建模的复杂挑战,其核心在于如何从海量、高维的转录组数据中精准推断基因型-表型关联。在构建过程中,研究团队面临多重技术难题,包括维持大规模细胞培养与固定冷冻过程中的细胞活力与RNA完整性,确保高通量筛选下的高靶向敲低效率,以及处理与存储数千万细胞所产生的庞大数据量,这些挑战对实验平台的稳健性与计算管线的可扩展性提出了极高要求。
常用场景
经典使用场景
在单细胞基因组学领域,X-Atlas-Orion数据集作为大规模Perturb-seq图谱,其经典使用场景集中于训练剂量依赖性的生物基础模型。研究人员利用该数据集包含的八百万个HCT116和HEK293T细胞,每个细胞均经过深度测序,能够系统地探索全基因组范围内蛋白质编码基因的扰动效应。通过分析每个扰动条件下中位数至少140个细胞的转录组数据,该数据集为构建预测基因功能与细胞表型之间复杂关系的计算模型提供了关键训练资源。
解决学术问题
该数据集有效解决了单细胞扰动筛选研究中规模与深度难以兼得的学术挑战。传统方法常受限于细胞通量或测序深度,而X-Atlas-Orion通过可扩展的固定冷冻保存平台,实现了对全部人类蛋白质编码基因的高效扰动与高覆盖率单细胞RNA测序。其高达75.4%的中位靶向敲低效率,为精确量化基因剂量效应、解析基因调控网络以及揭示基因功能冗余机制提供了前所未有的数据基础,显著推动了功能基因组学从描述性研究向预测性建模的范式转变。
衍生相关工作
围绕X-Atlas-Orion数据集,已衍生出一系列专注于单细胞数据分析与基础模型构建的经典工作。这些工作主要利用其SLAF格式的高效稀疏存储特性,开发新型算法以处理超大规模单细胞矩阵。相关研究不仅优化了扰动效应的统计推断方法,还推动了能够整合基因扰动、剂量响应与细胞状态的多模态基础模型架构的发展。这些模型进一步被应用于预测基因相互作用、合成致死性以及细胞命运决定轨迹,持续扩展着计算生物学的前沿边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作