Human Reference Genome

github2024-11-09 更新2024-11-28 收录

下载链接：

https://github.com/ml-jku/DNA-xLSTM

下载链接

链接失效反馈

官方服务：

资源简介：

人类参考基因组数据集，包含24个染色体的连续序列，以及用于从fasta文件中检索序列的间隔文件。

Human Reference Genome Dataset, which contains continuous sequences of 24 chromosomes, as well as interval files for retrieving sequences from FASTA files.

创建时间：

2024-11-05

原始信息汇总

DNA-xLSTM 数据集概述

数据准备

数据下载

数据来源: Human Reference Genome
文件类型:
- .fasta 文件 (包含所有序列)
- .bed 文件 (包含序列区间)
文件结构:

data |-- hg38/ |-- hg38.ml.fa |-- human-sequences.bed
下载命令: bash mkdir -p data/hg38/ curl https://ml.jku.at/research/Bio-xLSTM/downloads/DNA-xLSTM/data/hg38/hg38.ml.fa.gz > data/hg38/hg38.ml.fa.gz curl https://ml.jku.at/research/Bio-xLSTM/downloads/DNA-xLSTM/data/hg38/human-sequences.bed > data/hg38/human-sequences.bed gunzip data/hg38/hg38.ml.fa.gz # 解压 fasta 文件

预训练

支持的模型

xLSTM
Mamba
Caduceus
Transformer++ (Llama)
Hyena

预训练脚本

脚本位置: scripts_pretrain
示例脚本:

scripts_pretrain |-- run_pretrain_xlstm.sh |-- run_pretrain_mamba.sh |-- run_pretrain_caduceus.sh |-- run_pretrain_hyena.sh |-- run_pretrain_llama.sh
运行命令: bash cd scripts_pretrain sh run_pretrain_xlstm.sh

模型权重

预训练模型权重

下载地址: 预训练 xLSTM 模型权重
文件结构:

checkpoints |-- context_1k |-- context_32k

下游任务

支持的数据集

Genomic Benchmarks: 8 个分类任务
Nucleotide Transformer: 18 个分类数据集

下游任务脚本

脚本位置: scripts_downstream
示例脚本:

scripts_downstream |-- run_genomics.sh |-- run_nucleotide.sh
运行命令: bash cd scripts_downstream sh run_genomics.sh # 运行 Genomic Benchmarks sh run_nucleotide.sh # 运行 Nucleotide Transformer 任务

搜集汇总

数据集介绍

构建方式

在构建Human Reference Genome数据集时，研究者首先下载了包含所有序列的.fasta文件和用于定义序列区间的.bed文件。这些文件共同构成了人类参考基因组的基础数据结构。通过将24个染色体的序列合并为一个文件，并使用.bed文件中的区间信息，研究者能够精确地提取和处理基因组数据。这种结构化的数据准备方式确保了数据的高效利用和后续模型训练的准确性。

特点

Human Reference Genome数据集的主要特点在于其全面性和精细性。该数据集包含了整个人类基因组的序列信息，涵盖了24个染色体的连续序列，确保了数据的完整性。此外，通过.bed文件定义的序列区间，数据集能够提供精确的基因组片段，这对于基因组学研究和模型训练尤为重要。这种精细化的数据处理方式使得该数据集在生物信息学领域具有广泛的应用潜力。

使用方法

使用Human Reference Genome数据集时，用户首先需要下载并解压包含基因组序列的.fasta文件和定义序列区间的.bed文件。随后，用户可以通过提供的脚本进行模型预训练，支持多种模型如xLSTM、Mamba、Caduceus等。预训练完成后，用户可以利用下游任务脚本对模型进行微调，支持Genomic Benchmarks和Nucleotide Transformer等任务。这种灵活的使用方式使得该数据集适用于多种基因组学研究和应用场景。

背景与挑战

背景概述

人类参考基因组数据集（Human Reference Genome）是由约翰内斯·开普勒大学（JKU）的研究团队创建的，旨在为生物信息学和基因组学领域的研究提供一个全面且标准化的基因组序列资源。该数据集的核心研究问题是如何有效地表示和分析人类基因组，以推动基因组学在疾病诊断、治疗和预防中的应用。通过整合24条染色体的序列数据，该数据集为研究人员提供了一个高质量的参考框架，极大地促进了基因组学研究的进展。

当前挑战

构建人类参考基因组数据集面临的主要挑战包括数据的高复杂性和庞大的规模。基因组数据不仅包含大量的序列信息，还需要精确的注释和分类，以确保数据的准确性和可用性。此外，数据集的构建过程中需要处理不同来源和格式的数据，确保其一致性和完整性。在应用层面，如何高效地利用这些数据进行模型训练和下游任务的实现，也是一个重要的挑战。

常用场景

经典使用场景

在生物信息学领域，Human Reference Genome数据集的经典使用场景主要体现在基因组序列的预训练模型构建上。通过该数据集，研究人员可以训练如xLSTM、Mamba、Caduceus、Transformer++（Llama）和Hyena等模型，以捕捉人类基因组的复杂结构和功能特征。这些预训练模型不仅能够生成高质量的基因序列表示，还能在上下文学习中展现出卓越的性能，为后续的基因组分析和疾病预测提供坚实的基础。

衍生相关工作

Human Reference Genome数据集的发布催生了多项相关经典工作。例如，基于该数据集的预训练模型在基因组分类任务中表现出色，推动了Genomic Benchmarks和Nucleotide Transformer等下游任务的发展。此外，该数据集还为Caduceus、HyenaDNA等项目的研究提供了基础，促进了基因组学和深度学习技术的融合。这些衍生工作不仅丰富了生物信息学的研究工具，也为未来的基因组研究开辟了新的方向。

数据集最近研究