ctheodoris/Genecorpus-30M

hugging_face2024-03-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ctheodoris/Genecorpus-30M

下载链接

链接失效反馈

资源简介：

Genecorpus-30M是一个大规模预训练语料库，包含约3000万个人类单细胞转录组数据，涵盖了广泛的组织类型。该数据集用于预训练Geneformer模型，该模型能够在数据有限的网络生物学环境中进行上下文感知预测。数据以Huggingface Datasets结构提供，每个数据实例代表一个单细胞的转录组，通过秩值编码表示。秩值编码通过将每个基因在单个细胞中的表达量与其在整个语料库中的表达量进行归一化，从而优先区分细胞状态的基因。数据集的创建目的是为了支持在数据有限的环境中进行基因网络架构的映射，从而推动疾病治疗药物的发现。

提供机构：

ctheodoris

原始信息汇总

数据集概述

数据集名称

Genecorpus-30M

数据集描述

数据集总结

Genecorpus-30M 是一个包含约3000万人类单细胞转录组的大规模预训练语料库，来源于广泛的公开可用数据。该语料库用于预训练 Geneformer，一种预训练的transformer模型，能够在数据有限的情况下进行网络生物学中的上下文感知预测。

支持的任务

该语料库用于预训练 Geneformer，并兼容于预训练或微调Geneformer或类似模型。

物种

Homo sapiens

数据集结构

数据实例

Genecorpus-30M 以基于Apache Arrow格式的Huggingface Datasets结构提供，每个数据实例包含单个细胞的秩值编码。秩值编码是一种非参数表示，通过在Genecorpus-30M中对每个基因的表达进行归一化，按其在特定细胞中的归一化表达排序，来区分细胞状态。

数据字段

input_ids: 示例细胞的秩值编码
lengths: 该示例细胞秩值编码的长度

数据分割

数据集未包含预定义的分割。

数据集创建

筛选理由

为了在数据有限的情况下，如罕见疾病和临床上难以接近的组织疾病中，发现网络校正药物，需要大量转录组数据来学习基因间的连接。Genecorpus-30M 的构建允许大规模预训练 Geneformer，以在网络生物学中进行上下文感知预测。

源数据

源数据包括来自561个公开可用数据集的2990万（29,900,531）个人类单细胞转录组，这些数据集来自Theodoris等人，Nature 2023的方法部分中引用的原始研究。

个人和敏感信息

数据集中不包含个人或敏感信息，仅包含秩值编码，无可追踪的测序读数。

使用数据集的考虑

社会影响

Genecorpus-30M 使 Geneformer 的大规模预训练成为可能，该模型在数据有限的情况下提高了网络生物学中的预测准确性，并有助于疾病模型中候选治疗靶点的识别。

偏见讨论

数据集排除了可能导致网络重构的高突变负担细胞，并仅包括滴定法测序平台以确保表达值单位的可比性。尽管努力代表尽可能多的人类组织和细胞类型，但由于公开数据的不可用，某些组织和细胞类型未被代表。

其他已知限制

Genecorpus-30M 旨在用于自监督预训练。为了在下游任务中获得最佳预测，Geneformer 应与手头任务相关的标记数据集一起进行微调。

数据集管理员

Christina Theodoris, MD, PhD

引用信息

Theodoris CV*, Xiao L, Chopra A, Chaffin MD, Al Sayed ZR, Hill MC, Mantineo H, Brydon EM, Zeng Z, Liu XS, Ellinor PT*. Transfer learning enables predictions in network biology. Nature. 2023 May 31; Epub ahead of print. (*co-corresponding authors)

AI搜集汇总

数据集介绍

构建方式

Genecorpus-30M数据集的构建基于约3000万个人类单细胞转录组数据，这些数据来源于561个公开可用的数据集，涵盖了广泛的生物组织。数据预处理阶段，通过过滤低质量细胞和标准化基因表达值，确保了数据的可靠性和一致性。每个单细胞的转录组数据被转化为基于基因表达排名的编码形式，这种方法能够有效地区分细胞状态，并减少技术性偏差的影响。最终，数据集以Huggingface Datasets结构提供，便于后续的模型训练和应用。

使用方法

Genecorpus-30M数据集主要用于预训练和微调Geneformer等模型，适用于基因网络生物学的研究。用户可以通过Huggingface平台访问数据集，利用其提供的tokenized数据进行模型训练。数据集不包含预定义的分割，用户可以根据研究需求自行划分训练集和测试集。在使用过程中，建议结合具体任务进行模型的微调，以获得最佳的预测效果。此外，数据集的使用应遵循Apache 2.0许可协议，确保合法合规地应用于科研和开发。

背景与挑战

背景概述

Genecorpus-30M数据集由Christina Theodoris博士及其团队于2023年创建，旨在为网络生物学领域提供大规模的单细胞转录组数据。该数据集包含了约3000万个人类单细胞转录组数据，涵盖了多种组织类型，主要用于预训练Geneformer模型。Geneformer是一种基于Transformer架构的预训练模型，能够在数据有限的网络生物学环境中进行上下文感知的预测。该数据集的创建标志着单细胞转录组学与深度学习技术的深度融合，为疾病网络调控机制的研究提供了新的工具和方法。

当前挑战

Genecorpus-30M数据集在构建过程中面临了多重挑战。首先，单细胞转录组数据的异质性和技术噪声使得数据清洗和标准化成为关键难题。其次，由于数据来源广泛，包括多个公共数据库和平台，确保数据的一致性和可比性需要复杂的预处理流程。此外，数据集中排除了高突变负荷的细胞（如恶性细胞），以避免网络重编程的干扰，这可能导致某些细胞类型的代表性不足。最后，尽管数据集规模庞大，但某些组织或细胞类型的数据仍然缺失，限制了模型的全面性。这些挑战凸显了在单细胞转录组学领域构建高质量数据集的复杂性。

常用场景

经典使用场景

Genecorpus-30M数据集在生物信息学领域中被广泛用于单细胞转录组数据的预训练任务。通过整合来自多种组织的约3000万个人类单细胞转录组数据，该数据集为Geneformer等预训练模型提供了丰富的上下文信息，使得在数据有限的网络生物学环境中进行上下文感知预测成为可能。

解决学术问题

Genecorpus-30M解决了在罕见疾病和临床难以获取的组织中，由于数据稀缺而难以构建基因调控网络的学术难题。通过大规模预训练，该数据集使得在有限数据环境下进行基因网络架构的推断成为可能，极大地推动了网络生物学领域的研究进展。

实际应用

在实际应用中，Genecorpus-30M被用于预训练Geneformer模型，该模型在心肌病等疾病的建模中表现出色，能够识别潜在的治疗靶点。此外，该数据集还为药物发现提供了新的视角，通过纠正核心调控元件而非下游效应器，加速了疾病治疗的研究进程。

数据集最近研究