OmniCellTOSG_Dataset

Hugging Face2026-01-10 更新2026-01-11 收录

下载链接：

https://huggingface.co/datasets/FuhaiLiAiLab/OmniCellTOSG_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OmniCellTOSG是一个大规模的单细胞学习文本-组学信号图（TOSG）数据集。它集成了分片的表达矩阵、图拓扑（完整/内部/PPI边）和文本实体元数据（名称、描述、序列），并可选预计算嵌入。该数据集支持图感知预训练和下游任务，如细胞类型注释、疾病状态和性别分类。

创建时间：

2026-01-09

原始信息汇总

OmniCellTOSG 数据集概述

基本信息

数据集名称: OmniCellTOSG
数据集类型: 多模态图 (multimodal-graph)
创建者: Heming Zhang (联系点)
语言: 英语 (单语)
规模: 超过100万个样本 (">1M")
许可协议: 其他 (需遵守多个来源的条款)
任务类别: 其他
任务ID: 多标签分类、解释生成
标签: 单细胞、转录组学、基础模型

数据集简介

OmniCellTOSG 是一个用于单细胞学习的大规模文本-组学信号图数据集。它整合了分片的表达矩阵、图拓扑结构以及带有可选预计算嵌入的文本实体元数据，支持图感知预训练和下游任务。

核心构成

数据集包含以下主要组成部分：

表达矩阵: 以分片 .npy 文件存储，支持可扩展的输入/输出。
图拓扑: 包含完整边、内部边和蛋白质-蛋白质相互作用边。
文本元数据: 包含实体名称、描述和生物序列。
预计算嵌入: 提供与文本元数据对齐的预计算实体嵌入。

支持的任务

图-语言基础模型预训练
细胞类型注释
疾病状态分类
性别分类
核心信号推断

数据集结构

OmniCellTOSG_Dataset/ ├── expression_matrix/ # 分片的单细胞表达矩阵 ├── cell_metadata_with_mappings.csv/.parquet # 标准化的每细胞注释 ├── edge_index.npy # 完整图拓扑 (COO格式) ├── internal_edge_index.npy # 内部边 ├── ppi_edge_index.npy # PPI边 ├── s_bio.csv # 生物序列元数据 ├── s_desc.csv # 描述元数据 ├── s_name.csv # 名称元数据 ├── x_bio_emb.npy # 序列预计算嵌入 ├── x_desc_emb.npy # 描述预计算嵌入 └── x_name_emb.csv # 名称预计算嵌入

数据加载与使用

提供 CellTOSGDataLoader 加载器，支持通过条件字典筛选数据、多种采样方式、训练/推理模式切换以及批处理校正。关键参数包括任务类型、标签列、提取模式、文本/序列特征输出控制等。

来源与许可

数据集整合了来自以下多个来源的数据，使用时需遵守各自的条款和引用政策：

CellxGENE: https://cellxgene.cziscience.com/tos
Brain Cell Atlas: https://doi.org/10.1038/s41591-024-03150-z
GEO (NCBI): https://www.ncbi.nlm.nih.gov/geo/info/citations.html#third-party
HCA (Human Cell Atlas): https://data.humancellatlas.org/about/data-use-agreement

相关资源

项目主页: https://github.com/FuhaiLiAiLab/OmniCellTOSG
论文: https://arxiv.org/pdf/2504.02148
加载器发布页: https://github.com/FuhaiLiAiLab/OmniCellTOSG/releases/tag/v2.1.0

搜集汇总

数据集介绍

构建方式

在单细胞组学领域，OmniCellTOSG数据集通过整合多源异构数据构建而成。其核心是将来自CellxGENE、脑细胞图谱及GEO等权威数据库的单细胞表达矩阵进行分片处理，形成可扩展的.npy文件。同时，数据集系统性地集成了图拓扑结构，包括全连接边、内部边及蛋白质相互作用边，并关联了包含基因名称、描述与生物序列的文本元数据。这一构建过程确保了表达数据、图结构与文本信息在实体层面的精确对齐，为图-语言基础模型预训练提供了结构化的多模态基础。

特点

该数据集最显著的特征在于其首创的文本-组学信号图架构，将单细胞转录组数据与丰富的语义信息深度融合。数据规模庞大，涵盖超过百万个细胞，并提供了预计算的实体嵌入，支持用户直接调用以跳过实时编码步骤。其多模态特性不仅支持细胞类型注释、疾病状态与性别分类等下游任务，还特别为核心信号推断提供了专用拓扑边。分片存储的表达矩阵设计兼顾了大规模数据的高效输入输出与灵活重构，体现了其在可扩展性与计算友好性上的精心考量。

使用方法

利用该数据集进行研究，用户可通过专用的CellTOSGDataLoader加载器进行数据提取与任务配置。加载器允许通过条件字典对元数据进行筛选，例如针对特定组织或疾病状态抽取子集，并支持通过extract_mode参数灵活切换推理或训练模式。在训练模式下，加载器自动生成标准化的训练-测试分割。用户可根据任务需求选择直接使用预计算的文本与序列嵌入，或获取原始字段进行自定义编码。图拓扑信息以坐标格式提供，可与提取的表达特征及标签协同输入图神经网络模型，完成从预训练到特定下游任务的全流程分析。

背景与挑战

背景概述

单细胞转录组学技术的飞速发展催生了海量的细胞分辨率数据，为解析组织异质性、揭示疾病机制提供了前所未有的机遇。在此背景下，由FuhaiLiAiLab团队于2025年创建的OmniCellTOSG数据集应运而生，旨在构建一个大规模、多模态的文本-组学信号图资源。该数据集整合了来自CellxGENE、脑细胞图谱等多个权威平台的单细胞表达矩阵、图拓扑结构以及丰富的文本元数据，其核心研究问题聚焦于如何通过图-语言融合的预训练范式，赋能细胞类型注释、疾病状态分类等下游任务，从而推动单细胞基础模型的发展，并深化对细胞间信号传导机制的理解。

当前挑战

在单细胞组学领域，如何有效整合高维、稀疏的表达谱数据与复杂的生物学先验知识，以构建可解释、可泛化的预测模型，是长期存在的核心挑战。OmniCellTOSG数据集旨在应对这一挑战，但其构建过程本身亦面临诸多困难。首先，数据集成涉及多源、异构数据的标准化与对齐，包括不同平台、批次和实验协议带来的技术变异，这要求精密的批次校正与元数据统一流程。其次，构建文本-组学信号图需要将基因、蛋白质等实体与描述性文本、生物序列进行关联，并定义合理的图边关系（如蛋白质相互作用），这一过程对生物学知识的准确编码提出了极高要求。最后，为支持大规模预训练，数据集的存储、分片与高效加载架构设计也是关键的技术障碍。

常用场景

经典使用场景

在单细胞组学领域，OmniCellTOSG数据集为图-语言基础模型的预训练提供了核心资源。其经典使用场景在于整合表达矩阵、图拓扑结构与文本元数据，构建多模态图表示，以支持细胞类型注释、疾病状态分类及性别预测等下游任务。研究者可利用其预计算的嵌入和图结构，高效开展图神经网络与语言模型结合的跨模态学习，为单细胞数据的深度解析奠定基础。

解决学术问题

该数据集有效解决了单细胞转录组学中数据异质性高、多模态信息融合困难等学术挑战。通过提供统一的文本-组学信号图框架，它促进了跨模态表示学习的发展，使得研究人员能够探索基因表达与生物实体文本描述间的深层关联。其意义在于推动了单细胞基础模型的构建，为精准解析细胞状态、疾病机制及发育轨迹提供了标准化且可扩展的数据基础。

衍生相关工作

围绕OmniCellTOSG数据集，已衍生出一系列经典研究工作，主要集中在图神经网络与语言模型融合的预训练框架上。这些工作探索了如何利用其图拓扑与文本嵌入进行跨模态对齐，以提升下游任务的性能。相关研究还扩展至信号通路推断、细胞通讯网络重建等方向，推动了单细胞多组学分析方法的创新，并为构建更通用的生物医学基础模型提供了重要范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集