ctheodoris/Genecorpus-30M|生物信息学数据集|机器学习预训练模型数据集
收藏数据集概述
数据集名称
Genecorpus-30M
数据集描述
数据集总结
Genecorpus-30M 是一个包含约3000万人类单细胞转录组的大规模预训练语料库,来源于广泛的公开可用数据。该语料库用于预训练 Geneformer,一种预训练的transformer模型,能够在数据有限的情况下进行网络生物学中的上下文感知预测。
支持的任务
该语料库用于预训练 Geneformer,并兼容于预训练或微调Geneformer或类似模型。
物种
Homo sapiens
数据集结构
数据实例
Genecorpus-30M 以基于Apache Arrow格式的Huggingface Datasets结构提供,每个数据实例包含单个细胞的秩值编码。秩值编码是一种非参数表示,通过在Genecorpus-30M中对每个基因的表达进行归一化,按其在特定细胞中的归一化表达排序,来区分细胞状态。
数据字段
input_ids: 示例细胞的秩值编码lengths: 该示例细胞秩值编码的长度
数据分割
数据集未包含预定义的分割。
数据集创建
筛选理由
为了在数据有限的情况下,如罕见疾病和临床上难以接近的组织疾病中,发现网络校正药物,需要大量转录组数据来学习基因间的连接。Genecorpus-30M 的构建允许大规模预训练 Geneformer,以在网络生物学中进行上下文感知预测。
源数据
源数据包括来自561个公开可用数据集的2990万(29,900,531)个人类单细胞转录组,这些数据集来自Theodoris等人,Nature 2023的方法部分中引用的原始研究。
个人和敏感信息
数据集中不包含个人或敏感信息,仅包含秩值编码,无可追踪的测序读数。
使用数据集的考虑
社会影响
Genecorpus-30M 使 Geneformer 的大规模预训练成为可能,该模型在数据有限的情况下提高了网络生物学中的预测准确性,并有助于疾病模型中候选治疗靶点的识别。
偏见讨论
数据集排除了可能导致网络重构的高突变负担细胞,并仅包括滴定法测序平台以确保表达值单位的可比性。尽管努力代表尽可能多的人类组织和细胞类型,但由于公开数据的不可用,某些组织和细胞类型未被代表。
其他已知限制
Genecorpus-30M 旨在用于自监督预训练。为了在下游任务中获得最佳预测,Geneformer 应与手头任务相关的标记数据集一起进行微调。
数据集管理员
Christina Theodoris, MD, PhD
引用信息
Theodoris CV*, Xiao L, Chopra A, Chaffin MD, Al Sayed ZR, Hill MC, Mantineo H, Brydon EM, Zeng Z, Liu XS, Ellinor PT*. Transfer learning enables predictions in network biology. Nature. 2023 May 31; Epub ahead of print. (*co-corresponding authors)




