five

ctheodoris/Genecorpus-30M|生物信息学数据集|机器学习预训练模型数据集

收藏
hugging_face2024-03-25 更新2024-03-04 收录
生物信息学
机器学习预训练模型
下载链接:
https://hf-mirror.com/datasets/ctheodoris/Genecorpus-30M
下载链接
链接失效反馈
资源简介:
Genecorpus-30M是一个大规模预训练语料库,包含约3000万个人类单细胞转录组数据,涵盖了广泛的组织类型。该数据集用于预训练Geneformer模型,该模型能够在数据有限的网络生物学环境中进行上下文感知预测。数据以Huggingface Datasets结构提供,每个数据实例代表一个单细胞的转录组,通过秩值编码表示。秩值编码通过将每个基因在单个细胞中的表达量与其在整个语料库中的表达量进行归一化,从而优先区分细胞状态的基因。数据集的创建目的是为了支持在数据有限的环境中进行基因网络架构的映射,从而推动疾病治疗药物的发现。
提供机构:
ctheodoris
原始信息汇总

数据集概述

数据集名称

Genecorpus-30M

数据集描述

数据集总结

Genecorpus-30M 是一个包含约3000万人类单细胞转录组的大规模预训练语料库,来源于广泛的公开可用数据。该语料库用于预训练 Geneformer,一种预训练的transformer模型,能够在数据有限的情况下进行网络生物学中的上下文感知预测。

支持的任务

该语料库用于预训练 Geneformer,并兼容于预训练或微调Geneformer或类似模型。

物种

Homo sapiens

数据集结构

数据实例

Genecorpus-30M 以基于Apache Arrow格式的Huggingface Datasets结构提供,每个数据实例包含单个细胞的秩值编码。秩值编码是一种非参数表示,通过在Genecorpus-30M中对每个基因的表达进行归一化,按其在特定细胞中的归一化表达排序,来区分细胞状态。

数据字段

  • input_ids: 示例细胞的秩值编码
  • lengths: 该示例细胞秩值编码的长度

数据分割

数据集未包含预定义的分割。

数据集创建

筛选理由

为了在数据有限的情况下,如罕见疾病和临床上难以接近的组织疾病中,发现网络校正药物,需要大量转录组数据来学习基因间的连接。Genecorpus-30M 的构建允许大规模预训练 Geneformer,以在网络生物学中进行上下文感知预测。

源数据

源数据包括来自561个公开可用数据集的2990万(29,900,531)个人类单细胞转录组,这些数据集来自Theodoris等人,Nature 2023的方法部分中引用的原始研究。

个人和敏感信息

数据集中不包含个人或敏感信息,仅包含秩值编码,无可追踪的测序读数。

使用数据集的考虑

社会影响

Genecorpus-30M 使 Geneformer 的大规模预训练成为可能,该模型在数据有限的情况下提高了网络生物学中的预测准确性,并有助于疾病模型中候选治疗靶点的识别。

偏见讨论

数据集排除了可能导致网络重构的高突变负担细胞,并仅包括滴定法测序平台以确保表达值单位的可比性。尽管努力代表尽可能多的人类组织和细胞类型,但由于公开数据的不可用,某些组织和细胞类型未被代表。

其他已知限制

Genecorpus-30M 旨在用于自监督预训练。为了在下游任务中获得最佳预测,Geneformer 应与手头任务相关的标记数据集一起进行微调。

数据集管理员

Christina Theodoris, MD, PhD

引用信息

Theodoris CV*, Xiao L, Chopra A, Chaffin MD, Al Sayed ZR, Hill MC, Mantineo H, Brydon EM, Zeng Z, Liu XS, Ellinor PT*. Transfer learning enables predictions in network biology. Nature. 2023 May 31; Epub ahead of print. (*co-corresponding authors)

AI搜集汇总
数据集介绍
main_image_url
构建方式
Genecorpus-30M数据集的构建基于约3000万个人类单细胞转录组数据,这些数据来源于561个公开可用的数据集,涵盖了广泛的生物组织。数据预处理阶段,通过过滤低质量细胞和标准化基因表达值,确保了数据的可靠性和一致性。每个单细胞的转录组数据被转化为基于基因表达排名的编码形式,这种方法能够有效地区分细胞状态,并减少技术性偏差的影响。最终,数据集以Huggingface Datasets结构提供,便于后续的模型训练和应用。
使用方法
Genecorpus-30M数据集主要用于预训练和微调Geneformer等模型,适用于基因网络生物学的研究。用户可以通过Huggingface平台访问数据集,利用其提供的tokenized数据进行模型训练。数据集不包含预定义的分割,用户可以根据研究需求自行划分训练集和测试集。在使用过程中,建议结合具体任务进行模型的微调,以获得最佳的预测效果。此外,数据集的使用应遵循Apache 2.0许可协议,确保合法合规地应用于科研和开发。
背景与挑战
背景概述
Genecorpus-30M数据集由Christina Theodoris博士及其团队于2023年创建,旨在为网络生物学领域提供大规模的单细胞转录组数据。该数据集包含了约3000万个人类单细胞转录组数据,涵盖了多种组织类型,主要用于预训练Geneformer模型。Geneformer是一种基于Transformer架构的预训练模型,能够在数据有限的网络生物学环境中进行上下文感知的预测。该数据集的创建标志着单细胞转录组学与深度学习技术的深度融合,为疾病网络调控机制的研究提供了新的工具和方法。
当前挑战
Genecorpus-30M数据集在构建过程中面临了多重挑战。首先,单细胞转录组数据的异质性和技术噪声使得数据清洗和标准化成为关键难题。其次,由于数据来源广泛,包括多个公共数据库和平台,确保数据的一致性和可比性需要复杂的预处理流程。此外,数据集中排除了高突变负荷的细胞(如恶性细胞),以避免网络重编程的干扰,这可能导致某些细胞类型的代表性不足。最后,尽管数据集规模庞大,但某些组织或细胞类型的数据仍然缺失,限制了模型的全面性。这些挑战凸显了在单细胞转录组学领域构建高质量数据集的复杂性。
常用场景
经典使用场景
Genecorpus-30M数据集在生物信息学领域中被广泛用于单细胞转录组数据的预训练任务。通过整合来自多种组织的约3000万个人类单细胞转录组数据,该数据集为Geneformer等预训练模型提供了丰富的上下文信息,使得在数据有限的网络生物学环境中进行上下文感知预测成为可能。
解决学术问题
Genecorpus-30M解决了在罕见疾病和临床难以获取的组织中,由于数据稀缺而难以构建基因调控网络的学术难题。通过大规模预训练,该数据集使得在有限数据环境下进行基因网络架构的推断成为可能,极大地推动了网络生物学领域的研究进展。
实际应用
在实际应用中,Genecorpus-30M被用于预训练Geneformer模型,该模型在心肌病等疾病的建模中表现出色,能够识别潜在的治疗靶点。此外,该数据集还为药物发现提供了新的视角,通过纠正核心调控元件而非下游效应器,加速了疾病治疗的研究进程。
数据集最近研究
最新研究方向
近年来,Genecorpus-30M数据集在单细胞转录组学领域的研究中展现了其独特的价值。该数据集通过整合约3000万个人类单细胞转录组数据,为Geneformer模型的预训练提供了坚实的基础。Geneformer作为一种基于Transformer架构的预训练模型,能够在数据有限的网络生物学环境中进行上下文感知的预测。这一研究方向不仅推动了单细胞数据分析技术的发展,还为疾病模型的构建和药物靶点的发现提供了新的视角。特别是在罕见病和临床难以获取的组织样本中,Geneformer的应用显著提升了预测的准确性。随着单细胞测序技术的不断进步,Genecorpus-30M数据集的扩展和优化将进一步推动网络生物学的研究,为精准医学和个性化治疗提供强有力的支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。

国家青藏高原科学数据中心 收录

DFT dataset for high entropy alloys

我们的DFT数据集涵盖了由八种元素组成的bcc和fcc结构,包括所有可能的2至7元合金系统。该数据集在Zenodo上公开可用,包含初始和最终结构、形成能量、原子磁矩和电荷等属性。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录