Human Reference Genome
收藏DNA-xLSTM 数据集概述
数据准备
数据下载
-
数据来源: Human Reference Genome
-
文件类型:
.fasta文件 (包含所有序列).bed文件 (包含序列区间)
-
文件结构:
data |-- hg38/ |-- hg38.ml.fa |-- human-sequences.bed
-
下载命令: bash mkdir -p data/hg38/ curl https://ml.jku.at/research/Bio-xLSTM/downloads/DNA-xLSTM/data/hg38/hg38.ml.fa.gz > data/hg38/hg38.ml.fa.gz curl https://ml.jku.at/research/Bio-xLSTM/downloads/DNA-xLSTM/data/hg38/human-sequences.bed > data/hg38/human-sequences.bed gunzip data/hg38/hg38.ml.fa.gz # 解压 fasta 文件
预训练
支持的模型
- xLSTM
- Mamba
- Caduceus
- Transformer++ (Llama)
- Hyena
预训练脚本
-
脚本位置:
scripts_pretrain -
示例脚本:
scripts_pretrain |-- run_pretrain_xlstm.sh |-- run_pretrain_mamba.sh |-- run_pretrain_caduceus.sh |-- run_pretrain_hyena.sh |-- run_pretrain_llama.sh
-
运行命令: bash cd scripts_pretrain sh run_pretrain_xlstm.sh
模型权重
预训练模型权重
-
下载地址: 预训练 xLSTM 模型权重
-
文件结构:
checkpoints |-- context_1k |-- context_32k
下游任务
支持的数据集
- Genomic Benchmarks: 8 个分类任务
- Nucleotide Transformer: 18 个分类数据集
下游任务脚本
-
脚本位置:
scripts_downstream -
示例脚本:
scripts_downstream |-- run_genomics.sh |-- run_nucleotide.sh
-
运行命令: bash cd scripts_downstream sh run_genomics.sh # 运行 Genomic Benchmarks sh run_nucleotide.sh # 运行 Nucleotide Transformer 任务




