OmniCellTOSG_Dataset
收藏OmniCellTOSG 数据集概述
基本信息
- 数据集名称: OmniCellTOSG
- 数据集类型: 多模态图 (multimodal-graph)
- 创建者: Heming Zhang (联系点)
- 语言: 英语 (单语)
- 规模: 超过100万个样本 (">1M")
- 许可协议: 其他 (需遵守多个来源的条款)
- 任务类别: 其他
- 任务ID: 多标签分类、解释生成
- 标签: 单细胞、转录组学、基础模型
数据集简介
OmniCellTOSG 是一个用于单细胞学习的大规模文本-组学信号图数据集。它整合了分片的表达矩阵、图拓扑结构以及带有可选预计算嵌入的文本实体元数据,支持图感知预训练和下游任务。
核心构成
数据集包含以下主要组成部分:
- 表达矩阵: 以分片
.npy文件存储,支持可扩展的输入/输出。 - 图拓扑: 包含完整边、内部边和蛋白质-蛋白质相互作用边。
- 文本元数据: 包含实体名称、描述和生物序列。
- 预计算嵌入: 提供与文本元数据对齐的预计算实体嵌入。
支持的任务
- 图-语言基础模型预训练
- 细胞类型注释
- 疾病状态分类
- 性别分类
- 核心信号推断
数据集结构
OmniCellTOSG_Dataset/ ├── expression_matrix/ # 分片的单细胞表达矩阵 ├── cell_metadata_with_mappings.csv/.parquet # 标准化的每细胞注释 ├── edge_index.npy # 完整图拓扑 (COO格式) ├── internal_edge_index.npy # 内部边 ├── ppi_edge_index.npy # PPI边 ├── s_bio.csv # 生物序列元数据 ├── s_desc.csv # 描述元数据 ├── s_name.csv # 名称元数据 ├── x_bio_emb.npy # 序列预计算嵌入 ├── x_desc_emb.npy # 描述预计算嵌入 └── x_name_emb.csv # 名称预计算嵌入
数据加载与使用
提供 CellTOSGDataLoader 加载器,支持通过条件字典筛选数据、多种采样方式、训练/推理模式切换以及批处理校正。关键参数包括任务类型、标签列、提取模式、文本/序列特征输出控制等。
来源与许可
数据集整合了来自以下多个来源的数据,使用时需遵守各自的条款和引用政策:
- CellxGENE: https://cellxgene.cziscience.com/tos
- Brain Cell Atlas: https://doi.org/10.1038/s41591-024-03150-z
- GEO (NCBI): https://www.ncbi.nlm.nih.gov/geo/info/citations.html#third-party
- HCA (Human Cell Atlas): https://data.humancellatlas.org/about/data-use-agreement
相关资源
- 项目主页: https://github.com/FuhaiLiAiLab/OmniCellTOSG
- 论文: https://arxiv.org/pdf/2504.02148
- 加载器发布页: https://github.com/FuhaiLiAiLab/OmniCellTOSG/releases/tag/v2.1.0




