CELLxGENE
收藏arXiv2025-03-12 更新2025-03-14 收录
下载链接:
https://cellxgene.cziscience.com/
下载链接
链接失效反馈资源简介:
CELLxGENE数据集是由Program等人在2025年创建的,包含2700万个单细胞样本的基因表达数据。该数据集用于多模态单细胞-文本预训练语言模型(scMMGPT)的训练,以实现单细胞分析的跨模态知识和信息共享。数据集中的每个细胞样本都包含了丰富的基因表达矩阵和相应的文本描述信息,为单细胞类型注释、细胞描述生成等任务提供了有力的数据支持。
The CELLxGENE dataset was created by Program et al. in 2025, containing gene expression data from 27 million single-cell samples. This dataset is utilized for training the multimodal single-cell-text pre-trained language model (scMMGPT) to facilitate cross-modal knowledge and information sharing for single-cell analysis. Each cell sample in the dataset includes a comprehensive gene expression matrix and corresponding textual description information, providing robust data support for tasks such as single-cell type annotation and cell description generation.
提供机构:
中国科学技术大学, 新加坡国立大学
创建时间:
2025-03-12
搜集汇总
数据集介绍

构建方式
CELLxGENE数据集的构建方式基于单细胞RNA测序(scRNA-seq)数据,这些数据通过10X Genomics平台获取,并经过一系列的过滤步骤以确保数据质量和一致性。过滤步骤包括保留人类scRNA-seq数据、排除其他物种的数据、去除重复项、以及移除下游评估数据集测试集中的细胞。最终,数据集包含了大约2700万个人类细胞转录组数据,涉及344个类别和60697个不同的基因,涵盖了广泛的组织类型,如大脑、肺、心脏、血液、胰腺、肾脏、泛癌和其他组织。
特点
CELLxGENE数据集的特点在于其规模庞大、多样性高,并且数据质量经过严格筛选。数据集涵盖了广泛的人类组织和细胞类型,提供了丰富的单细胞转录组信息。此外,数据集还包含了细胞的元数据和文本描述,这些描述是通过整合Open Biomedical Ontologies Foundry和Wikipedia的相关信息生成的,从而为细胞类型提供了详细和准确的注释。
使用方法
CELLxGENE数据集可以用于多种下游任务,包括细胞描述生成、文本引导的伪细胞生成和细胞类型注释。使用数据集时,可以通过单细胞RNA测序技术获取单个细胞的基因表达水平数据,并将其与细胞的元数据和文本描述相结合。然后,可以使用scMMGPT等模型对数据进行处理,以生成细胞的文本描述、根据文本描述生成伪细胞,以及根据基因表达数据和文本描述对细胞类型进行分类。
背景与挑战
背景概述
CELLxGENE数据集的创建旨在解决单细胞分析中的多模态问题。该数据集由Yaorui Shi、Jiaqi Yang、Sihang Li、Junfeng Fang、Xiang Wang和Zhiyuan Liu等人提出,他们来自中国科学技术大学和新加坡国立大学。CELLxGENE数据集的核心研究问题是提高单细胞分析中的准确性,特别是通过预训练语言模型(PLMs)的应用。这些模型在科学研究中取得了革命性的进展,但在单细胞分析中的应用仍然有限。现有的PLMs无法处理单细胞RNA测序数据,而细胞PLMs又缺乏处理自由文本的能力,这限制了它们在多模态任务中的应用。CELLxGENE数据集通过提供一个统一的预训练模型,即Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT),有效地整合了细胞和文本PLMs,促进了跨模态知识的共享,从而提高了性能。scMMGPT在联合细胞-文本任务中表现出色,实现了细胞描述生成的文本差异的相对改进为84%,细胞类型注释的准确率提高了20.5%,文本条件下的伪细胞生成的kNN准确率提高了4%,超过了基线模型。该数据集的影响力在于它为单细胞分析提供了一个强大的工具,有助于降低研究障碍,提高分析准确性。
当前挑战
CELLxGENE数据集在解决单细胞分析的多模态问题时面临一些挑战。首先,文本PLMs无法处理单细胞RNA测序数据,而细胞PLMs又缺乏处理自由文本的能力,这限制了它们在多模态任务中的应用。其次,现有的多模态PLMs在整合这些模态时往往存在信息丢失或不充分的单模态预训练问题,导致性能不佳。为了解决这些挑战,CELLxGENE数据集提出了scMMGPT模型,该模型通过跨模态投影器有效地整合了最先进的细胞和文本PLMs,并在2700万细胞上进行了广泛的预训练,这是迄今为止最大的多模态细胞-文本PLMs数据集。此外,CELLxGENE数据集还面临着如何有效地将细胞数据转化为文本描述的挑战,以及如何利用文本描述来指导细胞生成的挑战。为了克服这些挑战,CELLxGENE数据集采用了定制的架构和大规模预训练,使其在单细胞分析任务中表现出优越的性能。
常用场景
经典使用场景
CELLxGENE数据集被广泛用于单细胞转录组学的分析,包括细胞描述生成、细胞类型注释和基于文本的伪细胞生成等。该数据集通过整合细胞和文本信息,为单细胞分析提供了更全面的视角,帮助研究人员更好地理解细胞状态和功能。
实际应用
CELLxGENE数据集在实际应用中具有广泛的应用前景。例如,在药物开发中,可以用于预测细胞对药物的反应,从而指导药物设计和优化。在疾病研究中,可以用于分析细胞在疾病发生发展过程中的变化,为疾病诊断和治疗提供新的思路。
衍生相关工作
CELLxGENE数据集衍生了许多相关的研究工作。例如,scGPT和Llama-2等预训练语言模型在单细胞分析中的应用,以及多模态预训练模型在科学领域的探索等。这些相关工作进一步推动了单细胞分析和多模态预训练模型的发展,为科学研究提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



