OmniCellTOSG

Name: OmniCellTOSG
Creator: 华盛顿大学圣路易斯分校
Published: 2025-04-03 05:47:58
License: 暂无描述

arXiv2025-04-03 更新2025-04-07 收录

下载链接：

https://github.com/FuhaiLiAiLab/OmniCellTOSG

下载链接

链接失效反馈

官方服务：

资源简介：

OmniCellTOSG数据集是由华盛顿大学圣路易斯分校的研究团队创建的，该数据集整合了来自不同组织、疾病和细胞类型的1200万单个细胞的单细胞转录组数据。通过收集CellxGene、GEO、Brain Cell Atlas和SEA-AD等多个来源的数据，经过严格的质量控制和标准化预处理，形成了包含547,168个细胞的最终数据集。每个细胞或元细胞都与标签（如器官、疾病、性别、年龄、细胞亚型）相关联的信号图/系统，旨在通过图推理解码细胞信号系统。该数据集为解码复杂的细胞信号系统提供了新的图数据模型，并促进了大规模预训练语言模型和图神经网络模型的开发。

The OmniCellTOSG dataset was constructed by a research team from Washington University in St. Louis. This dataset aggregates single-cell transcriptomic data from 12 million single cells spanning various tissues, diseases and cell types. By collecting data from multiple repositories including CellxGene, GEO, Brain Cell Atlas and SEA-AD, and applying rigorous quality control and standardized preprocessing workflows to the acquired data, the team generated a final dataset containing 547,168 cells. Each cell or metacell is associated with signal graphs or systems annotated with labels such as organ, disease, sex, age and cell subtype, and this dataset is designed to decode cellular signaling systems via graph reasoning. This dataset provides a novel graph-based data model for decoding complex cellular signaling systems, and facilitates the development of large-scale pre-trained language models and graph neural network models.

提供机构：

华盛顿大学圣路易斯分校

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

OmniCellTOSG数据集的构建基于大规模单细胞RNA测序（scRNAseq）数据，整合了来自CellxGene、GEO、Brain Cell Atlas和SEA-AD等多个数据源的117,519,978个原始细胞。通过SEACells算法将单细胞聚合成547,168个元细胞，以减少数据稀疏性和噪声。每个元细胞的文本注释信息来源于BioMedGraphica数据库，涵盖了基因/蛋白质的生物学功能、细胞定位、相关疾病和药物等先验知识。数据预处理包括质量控制、归一化和系统化的器官/组织与疾病标签分组，最终生成文本-组学信号图（TOSGs）。

使用方法

OmniCellTOSG数据集可通过CellTOSGDataset包加载，用户可以根据器官和疾病类别灵活选择数据子集。数据加载时支持多种标签类型（如细胞类型、组织类型、疾病状态等），并可通过调整采样比例平衡正常与疾病细胞的数量。数据集适用于无监督学习（如细胞聚类）和监督学习（如细胞状态预测）任务。用户还可以利用预训练的联合LLM-GNN模型进行细胞信号网络的推理和分析，生成核心信号子图。具体代码示例和详细文档可在GitHub仓库中获取。

背景与挑战

背景概述

OmniCellTOSG是由华盛顿大学圣路易斯分校的Fuhai Li团队于2025年推出的首个细胞文本-组学信号图数据集，旨在通过整合大规模单细胞转录组数据和文本注释知识，构建新型图数据结构以解码复杂细胞信号系统。该数据集基于1.2亿个来自不同组织和疾病状态的单细胞RNA测序数据，创新性地将人类可理解的文本注释（如基因功能、疾病关联）与数值组学特征相结合，为开发联合大型语言模型（LLM）和图神经网络（GNN）的基础模型提供了标准化平台。其核心研究问题聚焦于揭示细胞信号网络在发育、衰老和疾病中的动态变化规律，对精准医学和生命科学研究具有范式转换意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，细胞信号系统的复杂性（涉及数万基因/蛋白质及其相互作用）导致传统分析方法难以捕捉动态调控模式，且疾病特异性数据易引入偏差；在构建过程中，需解决单细胞数据的高稀疏性（通过SEACells算法生成元细胞）、跨数据集注释标准化（整合CellxGene/GEO等异构来源），以及文本-组学多模态融合（依赖BioMedGraphica知识库）等技术难题。此外，开发兼容图结构与文本特征的联合LLM-GNN模型仍需突破模态对齐和可解释性瓶颈。

常用场景

经典使用场景

OmniCellTOSG数据集作为首个整合文本与组学特征的细胞信号图数据集，其经典应用场景在于支持联合大型语言模型（LLM）与图神经网络（GNN）的建模研究。通过将人类可理解的基因/蛋白质生物功能注释（如信号通路、疾病关联）与单细胞转录组数值特征融合为图结构数据，该数据集为解码细胞异质性下的信号网络模式提供了标准化平台。典型应用包括跨器官、疾病状态的细胞亚群信号通路推理，以及基于注意力机制的细胞类型特异性核心子网络提取。

解决学术问题

该数据集解决了细胞信号系统解码中的两大核心难题：一是传统单组学分析难以整合先验知识进行可解释性推理，OmniCellTOSG通过文本-组学双模态特征实现了生物语义与数值特征的协同建模；二是小规模疾病数据集导致的模型偏差问题，其涵盖1.2亿细胞的全景数据支持开发抗过拟合的基础模型。在方法学层面，推动了LLM与GNN的交叉架构设计，如通过蛋白质互作子图的掩码预训练策略增强模型对信号流扰动的预测能力。

实际应用

在精准医疗领域，OmniCellTOSG支持阿尔茨海默病等复杂疾病的机制研究，通过比对疾病与正常细胞的信号图差异识别关键靶点。制药工业可利用其预测药物组合对虚拟蛋白节点的扰动效应，加速候选药物筛选。数据集提供的PyTorch兼容接口与分层采样策略，使得临床研究者能快速构建器官特异性预测模型，例如基于骨髓样本的急性髓系白血病细胞状态分类准确率达96.43%。

数据集最近研究