InstaDeepAI/human_reference_genome

Name: InstaDeepAI/human_reference_genome
Creator: InstaDeepAI
Published: 2023-04-20 13:37:22
License: 暂无描述

Hugging Face2023-04-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/human_reference_genome

下载链接

链接失效反馈

官方服务：

资源简介：

人类参考基因组数据集是基于GRCh38/hg38参考组装构建的，包含所有常染色体和性染色体的序列，总共有32亿个核苷酸。该数据集主要用于Nucleotide Transformers模型的预训练。每个数据实例包含一个表示DNA序列的字符串、一个表示染色体的字符串以及两个表示序列第一个和最后一个核苷酸索引的整数。数据集分为训练集、验证集和测试集，分别包含不同数量的实例。

提供机构：

InstaDeepAI

原始信息汇总

数据集概述

数据集名称

名称： Human Reference Genome
别名： 人类参考基因组

数据集描述

构建方式： 该数据集由人类参考基因组GRCh38/hg38的所有常染色体和性染色体序列构成，总共有3.2亿个核苷酸。
用途： 作为Nucleotide Transformers模型的预训练语料库。

数据集结构

数据实例： 每个实例包含一个代表序列的字符串、一个指示染色体的字符串以及两个分别代表序列起始和结束核苷酸位置的整数。

数据字段

sequence： 包含DNA序列的字符串。
chromosome： 指示染色体的字符串（1,2,...,21,X,Y）。
start_pos： 序列起始核苷酸的索引。
end_pos： 序列结束核苷酸的索引。

数据分割

分割类型： 训练集、验证集、测试集。
分割统计：
- 训练集： 6kb - 498,444实例；12kb - 249,222实例。
- 验证集： 6kb - 7,784实例；12kb - 3,892实例。
- 测试集： 6kb - 8,469实例；12kb - 4,234实例。

数据来源

源数据： 来自GRCh38/hg38人类参考基因组的染色体序列。

引用信息

bibtex @article{dalla2023nucleotide, title={The Nucleotide Transformer: Building and Evaluating Robust Foundation Models for Human Genomics}, author={Dalla-Torre, Hugo and Gonzalez, Liam and Mendoza Revilla, Javier and Lopez Carranza, Nicolas and Henryk Grywaczewski, Adam and Oteri, Francesco and Dallago, Christian and Trop, Evan and Sirelkhatim, Hassan and Richard, Guillaume and others}, journal={bioRxiv}, pages={2023--01}, year={2023}, publisher={Cold Spring Harbor Laboratory} }

搜集汇总

数据集介绍

构建方式

在基因组学研究领域，构建高质量参考序列是解析人类遗传信息的基础。该数据集基于国际公认的人类参考基因组组装版本GRCh38/hg38，系统提取了所有常染色体及性染色体的完整核苷酸序列。通过精确切割染色体序列，生成长度为6,200或12,200碱基对的片段，并确保相邻片段间保留100个碱基的重叠区域，以支持滑动窗口式的连续覆盖。最终整合的序列总量达到32亿个核苷酸，形成了结构严谨、覆盖全面的预训练语料库。

特点

该数据集的核心特征在于其序列设计的连续性与可扩展性。每个数据实例不仅包含DNA序列字符串，还标注了染色体来源及起止位置，提供了完整的基因组上下文信息。序列间的重叠设计使得模型能够通过随机起始点进行动态分词，从而在训练过程中实现对整个染色体的无缝遍历，有效避免了固定边界带来的信息损失。此外，数据集按需划分为训练、验证与测试子集，并支持两种长度配置，为不同规模的模型训练提供了灵活性。

使用方法

在基因组学机器学习应用中，该数据集主要用于训练核苷酸Transformer等基础模型。使用者可通过迭代读取序列，并利用重叠区域特性随机选择分词起始位置，使模型在每个训练周期内接触到多样化的序列上下文。数据字段包括序列、染色体编号、起止位点，便于进行位置感知的建模分析。在实际使用中，建议根据任务需求选择6kb或12kb的序列长度配置，并参考提供的划分比例进行模型训练与评估，以充分利用其连续覆盖的设计优势。

背景与挑战

背景概述

人类参考基因组数据集是基因组学领域的一项基础性资源，由InstaDeepAI团队于2023年构建，旨在为大规模基因组序列分析提供标准化数据。该数据集基于国际广泛采用的GRCh38/hg38参考组装版本，涵盖了所有常染色体和性染色体序列，总计包含约32亿个核苷酸。其核心研究问题在于为深度学习模型，特别是核苷酸变换器（Nucleotide Transformer）提供预训练语料，以推动基因组功能注释、变异检测及进化分析等任务的进展。该数据集的发布显著提升了基因组序列建模的效率和泛化能力，为生物医学研究中的精准医疗和疾病机制探索提供了关键数据支撑。

当前挑战

该数据集主要应对基因组序列建模中的两大挑战：其一，在领域问题层面，基因组数据具有极高的复杂性和规模，如何从海量核苷酸序列中提取有意义的生物学模式，并构建能够理解基因调控、变异效应等深层语义的模型，是当前计算基因组学的核心难题；其二，在构建过程中，需处理参考基因组序列的拼接与质量控制，确保序列的完整性和准确性，同时设计合理的序列分割与重叠策略，以覆盖染色体全长并避免信息丢失，这对数据工程的技术实现提出了较高要求。

常用场景

经典使用场景

在基因组学与生物信息学领域，人类参考基因组数据集作为基础性资源，其经典应用场景在于为大规模预训练模型提供结构化DNA序列数据。该数据集以GRCh38/hg38参考组装版本为基础，涵盖所有常染色体与性染色体，总计32亿个核苷酸，序列长度设置为6,200或12,200碱基对。通过重叠滑动窗口设计，模型能在训练过程中覆盖染色体全序列，并在不同训练周期内观察到多样化的上下文模式，从而有效捕捉基因组序列中的长期依赖关系与生物学模式。

衍生相关工作

围绕该数据集，已衍生出多项具有影响力的研究工作。最具代表性的是InstaDeepAI团队开发的Nucleotide Transformer系列模型，这些模型通过在大规模参考基因组数据上进行预训练，在多项基因组学下游任务中取得了先进性能。后续研究进一步扩展了模型架构，开发出面向多物种基因组、表观基因组学及三维基因组学的变体模型。同时，该数据集也促进了开源工具生态的发展，如基因组序列预处理管道、模型微调框架以及可视化平台，为跨学科研究者提供了标准化的工作流程与可复现的基准测试环境。

数据集最近研究