five

Human Reference Genome

收藏
github2024-11-09 更新2024-11-28 收录
下载链接:
https://github.com/ml-jku/DNA-xLSTM
下载链接
链接失效反馈
官方服务:
资源简介:
人类参考基因组数据集,包含24个染色体的连续序列,以及用于从fasta文件中检索序列的间隔文件。

Human Reference Genome Dataset, which contains continuous sequences of 24 chromosomes, as well as interval files for retrieving sequences from FASTA files.
创建时间:
2024-11-05
原始信息汇总

DNA-xLSTM 数据集概述

数据准备

数据下载

  • 数据来源: Human Reference Genome

  • 文件类型:

    • .fasta 文件 (包含所有序列)
    • .bed 文件 (包含序列区间)
  • 文件结构:

    data |-- hg38/ |-- hg38.ml.fa |-- human-sequences.bed

  • 下载命令: bash mkdir -p data/hg38/ curl https://ml.jku.at/research/Bio-xLSTM/downloads/DNA-xLSTM/data/hg38/hg38.ml.fa.gz > data/hg38/hg38.ml.fa.gz curl https://ml.jku.at/research/Bio-xLSTM/downloads/DNA-xLSTM/data/hg38/human-sequences.bed > data/hg38/human-sequences.bed gunzip data/hg38/hg38.ml.fa.gz # 解压 fasta 文件

预训练

支持的模型

  • xLSTM
  • Mamba
  • Caduceus
  • Transformer++ (Llama)
  • Hyena

预训练脚本

  • 脚本位置: scripts_pretrain

  • 示例脚本:

    scripts_pretrain |-- run_pretrain_xlstm.sh |-- run_pretrain_mamba.sh |-- run_pretrain_caduceus.sh |-- run_pretrain_hyena.sh |-- run_pretrain_llama.sh

  • 运行命令: bash cd scripts_pretrain sh run_pretrain_xlstm.sh

模型权重

预训练模型权重

下游任务

支持的数据集

  • Genomic Benchmarks: 8 个分类任务
  • Nucleotide Transformer: 18 个分类数据集

下游任务脚本

  • 脚本位置: scripts_downstream

  • 示例脚本:

    scripts_downstream |-- run_genomics.sh |-- run_nucleotide.sh

  • 运行命令: bash cd scripts_downstream sh run_genomics.sh # 运行 Genomic Benchmarks sh run_nucleotide.sh # 运行 Nucleotide Transformer 任务

搜集汇总
数据集介绍
main_image_url
构建方式
在构建Human Reference Genome数据集时,研究者首先下载了包含所有序列的.fasta文件和用于定义序列区间的.bed文件。这些文件共同构成了人类参考基因组的基础数据结构。通过将24个染色体的序列合并为一个文件,并使用.bed文件中的区间信息,研究者能够精确地提取和处理基因组数据。这种结构化的数据准备方式确保了数据的高效利用和后续模型训练的准确性。
特点
Human Reference Genome数据集的主要特点在于其全面性和精细性。该数据集包含了整个人类基因组的序列信息,涵盖了24个染色体的连续序列,确保了数据的完整性。此外,通过.bed文件定义的序列区间,数据集能够提供精确的基因组片段,这对于基因组学研究和模型训练尤为重要。这种精细化的数据处理方式使得该数据集在生物信息学领域具有广泛的应用潜力。
使用方法
使用Human Reference Genome数据集时,用户首先需要下载并解压包含基因组序列的.fasta文件和定义序列区间的.bed文件。随后,用户可以通过提供的脚本进行模型预训练,支持多种模型如xLSTM、Mamba、Caduceus等。预训练完成后,用户可以利用下游任务脚本对模型进行微调,支持Genomic Benchmarks和Nucleotide Transformer等任务。这种灵活的使用方式使得该数据集适用于多种基因组学研究和应用场景。
背景与挑战
背景概述
人类参考基因组数据集(Human Reference Genome)是由约翰内斯·开普勒大学(JKU)的研究团队创建的,旨在为生物信息学和基因组学领域的研究提供一个全面且标准化的基因组序列资源。该数据集的核心研究问题是如何有效地表示和分析人类基因组,以推动基因组学在疾病诊断、治疗和预防中的应用。通过整合24条染色体的序列数据,该数据集为研究人员提供了一个高质量的参考框架,极大地促进了基因组学研究的进展。
当前挑战
构建人类参考基因组数据集面临的主要挑战包括数据的高复杂性和庞大的规模。基因组数据不仅包含大量的序列信息,还需要精确的注释和分类,以确保数据的准确性和可用性。此外,数据集的构建过程中需要处理不同来源和格式的数据,确保其一致性和完整性。在应用层面,如何高效地利用这些数据进行模型训练和下游任务的实现,也是一个重要的挑战。
常用场景
经典使用场景
在生物信息学领域,Human Reference Genome数据集的经典使用场景主要体现在基因组序列的预训练模型构建上。通过该数据集,研究人员可以训练如xLSTM、Mamba、Caduceus、Transformer++(Llama)和Hyena等模型,以捕捉人类基因组的复杂结构和功能特征。这些预训练模型不仅能够生成高质量的基因序列表示,还能在上下文学习中展现出卓越的性能,为后续的基因组分析和疾病预测提供坚实的基础。
衍生相关工作
Human Reference Genome数据集的发布催生了多项相关经典工作。例如,基于该数据集的预训练模型在基因组分类任务中表现出色,推动了Genomic Benchmarks和Nucleotide Transformer等下游任务的发展。此外,该数据集还为Caduceus、HyenaDNA等项目的研究提供了基础,促进了基因组学和深度学习技术的融合。这些衍生工作不仅丰富了生物信息学的研究工具,也为未来的基因组研究开辟了新的方向。
数据集最近研究
最新研究方向
在基因组学领域,Human Reference Genome数据集的最新研究方向主要集中在利用深度学习模型进行基因序列的生成建模和上下文学习。特别是,Bio-xLSTM模型通过结合长短期记忆网络(LSTM)和生物序列数据,展示了在基因组数据上的强大生成能力。研究者们不仅关注模型的预训练,还致力于通过下游任务如基因分类和变异预测来验证模型的实际应用价值。这些研究不仅推动了基因组学数据的深度理解,也为生物医学领域的进一步应用提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作