X-Atlas-Orion
收藏X-Atlas Orion 数据集概述
基本信息
- 数据集名称: X-Atlas-Orion (SLAF Format)
- 发布者: slaf-project
- 原始数据生成者: Xaira Therapeutics
- 原始数据集: Xaira-Therapeutics/X-Atlas-Orion
- 许可协议: CC-BY-NC-SA-4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0)
- 标签: biology, genomics, RNA, single-cell, lance, slaf
- 语言: 英语
数据集描述
X-Atlas/Orion 是一个 Perturb-seq 图谱,包含两个针对所有人类蛋白质编码基因(n = 18,903 个基因)的全基因组 Fix-Cryopreserve-ScRNAseq (FiCS) Perturb-seq 筛选。该数据集包含八百万个 HCT116 和 HEK293T 细胞,每个细胞均经过深度测序,每个细胞的中位数独特分子标识符 (UMI) 为 16,000 个。HCT116 细胞的中位数靶向敲低效率为 75.4%,HEK293T 细胞为 51.5%,每次扰动的中位数细胞数至少为 140 个。此版本以 SLAF 格式提供相同数据,以兼容 SLAF 工具。
数据格式与配置
- 当前发布格式: SLAF (Sparse Lazy Array Format)
- 原始格式: Parquet 文件
- 数据配置:
- 配置名称: default
- 数据文件:
- 分割: HCT116
- 路径: data/HCT116/**
- 分割: HEK293T
- 路径: data/HEK293T/**
- 分割: HCT116
引用信息
原始文献引用:
@article{huang2025xatlasorion, title={X-Atlas/Orion: Genome-wide Perturb-seq Datasets via a Scalable Fix-Cryopreserve Platform for Training Dose-Dependent Biological Foundation Models}, author={Huang, Ann C and Hsieh, Tsung-Han S and Zhu, Jiang and Michuda, Jackson and Teng, Ashton and Kim, Soohong and Rumsey, Elizabeth M and Lam, Sharon K and Anigbogu, Ikenna and Wright, Philip and Ameen, Mohamed and You, Kwontae and Graves, Christopher J and Kim, Hyunsung John and Litterman, Adam J and Sit, Rene V and Blocker, Alex and Chu, Ci}, journal={bioRxiv}, year={2025}, url={https://www.biorxiv.org/content/10.1101/2025.06.11.659105v1} }
使用方法
此数据集采用 SLAF 格式,使用 Lance 表格式进行存储。
使用 SLAF 格式(推荐)
bash pip install slafdb
python hf_path = hf://datasets/slaf-project/X-Atlas-Orion from slaf import SLAFArray slaf_hct116 = SLAFArray(f"{hf_path}/data/HCT116") slaf_hct116.query("SELECT * FROM cells LIMIT 10")
直接使用 Lance
bash pip install pylance
python hf_path = hf://datasets/slaf-project/X-Atlas-Orion import lance lance_hct116_ds = lance.dataset(f"{hf_path}/data/HCT116/cells.lance") lance_hct116_ds.sample(10)




