five

GERM

收藏
arXiv2025-05-01 更新2025-05-03 收录
下载链接:
https://github.com/MAGICS-LAB/GERM
下载链接
链接失效反馈
官方服务:
资源简介:
GERM是一个具有强大压缩性能和快速适应性的基因组基础模型,旨在解决计算资源稀缺的挑战。该模型通过消除影响低秩适应和后训练量化的异常值来提高效率和鲁棒性。通过在预训练和微调过程中去除异常值,GERM加快了适应速度,降低了计算成本,并增强了量化鲁棒性。此外,GERM-T策略在异常值免费框架内采用小步持续学习,利用原始检查点避免从头开始重新训练。实验结果表明,GERM在微调方面比基线模型提高了37.98%,在量化方面提高了64.34%,平均峰度降低了92.14%,最大无穷范数降低了82.77%。与领先的方法相比,GERM始终提供卓越的性能,为资源受限环境中的基因组建模提供了一个实用的解决方案。
提供机构:
西北大学
创建时间:
2025-05-01
原始信息汇总

GERM 数据集概述

1. 数据集简介

  • 名称:GERM (Genomic Foundation Model)
  • 目的:提升基因组分析的效率和适应性
  • 基础模型:基于DNABERT-2构建
  • 核心创新
    • 采用无异常值层替代标准注意力机制
    • 改进低秩适应和量化鲁棒性
    • 集成QLoRA和LoFTQ进行高效低秩适应
    • 结合异常值抑制、OmniQuant和SmoothQuant实现稳健量化

2. 数据集内容

  • 官方实现:包含论文《Fast and Low-Cost Genomic Foundation Models via Outlier Removal》的官方实现
  • 量化适配
    • outlier_suppression
    • omniquant
    • smoothquant
  • 微调代码
    • 全微调
    • LoRA
    • QLoRA
    • LoftQ
  • 预训练代码
    • 标准预训练
    • 无异常值预训练
  • 异常值测试代码:包含测试异常值的脚本和工具

3. 环境配置

  • Python版本:3.8
  • 安装命令: bash conda create -n germ python=3.8 conda activate germ pip install -r requirements.txt

4. 预训练

  • 无异常值预训练: bash torchrun --nproc_per_node=4 run_mlm.py [参数列表]

  • 标准预训练: bash sh run_pretrain.sh

5. 微调

  • 全微调: bash sh finetune/scripts/full/run.sh

  • LoRA: bash sh finetune/scripts/lora/run.sh

  • QLoRA: bash sh finetune/scripts/qlora4/run.sh

  • LoftQ: bash sh finetune/scripts/loftq/run.sh

6. 量化方法

  • outlier_suppression

    • 配置文件:config.yaml
    • 运行命令: bash cd outlier_suppression/exp/bert_ptq/twc_fine_gamma/dnabert sh run.sh
  • Smoothquant

    • 生成激活尺度: bash cd smoothquant/examples sh act_pipe.sh

    • 执行量化: bash sh ppl_pipe.sh

  • Omniquant

    • 获取尺度和偏移: bash cd omniquant/OmniQuant/scripts sh act_pipe.sh

    • 执行量化: bash sh run.sh

7. 评估

  • 运行命令: bash sh run.sh

  • 量化选项

    • --n_bits n
    • --n_bits_act n
    • --quantize

8. 引用

  • 引用格式

    to be filled

9. 致谢

  • DNABERT-2
  • HyenaDNA
  • SmoothQuant
  • OutEffHop
  • OmniQuant
  • Outlier Suppression
  • LoftQ
  • Nucleotide Transformers
搜集汇总
数据集介绍
main_image_url
构建方式
GERM数据集的构建采用了创新的异常值去除技术,通过替换传统Transformer中的注意力机制为无异常值的Hopfield层,有效消除了预训练和微调过程中产生的异常值。该数据集基于DNABERT-2模型结构,采用SentencePiece子词标记化方法和ALiBi位置编码技术处理DNA序列,同时引入了小步持续学习策略GERM-T,避免了从头训练的昂贵计算成本。
特点
GERM数据集在基因组建模领域展现出三大核心优势:其量化友好特性使模型在8位量化下仅产生4.82%的性能下降;快速适应能力让模型在单块RTX 2080 Ti显卡上仅需5分钟即可完成微调;卓越的鲁棒性表现为平均峰度降低92.14%,最大无穷范数减少82.77%。这些特性使其特别适合在移动设备、边缘计算等资源受限环境中部署。
使用方法
使用GERM数据集时,研究者可通过Hugging Face库加载预训练模型,支持标准的微调流程。对于资源受限场景,推荐采用QLoRA等低秩适配技术进行参数高效微调,配合OmniQuant等量化方法实现高效推理。数据集提供的GERM-T版本允许用户基于现有检查点进行小步持续学习,大幅降低计算成本。实验表明,该框架在27个基因组分类任务上平均提升微调性能37.98%,量化性能64.34%。
背景与挑战
背景概述
GERM(Genomic Foundation Model)是由西北大学和天津大学的研究团队于2025年提出的基因组学基础模型,旨在解决计算资源受限环境下的基因组建模挑战。该模型通过创新的异常值消除机制,显著提升了低秩适应(LoRA)和训练后量化(PTQ)的效率与鲁棒性。GERM基于Transformer架构,通过替换传统注意力层为无异常值关联记忆模型,在DNABERT-2等现有模型基础上实现了37.98%的微调性能提升和64.34%的量化性能改进。其创新性工作发表在机器学习顶会ICML 2025,为生物医学实验室等资源受限场景提供了实用的基因组分析解决方案。
当前挑战
GERM主要应对两大挑战:在领域问题层面,传统基因组基础模型(如DNABERT-2)存在注意力机制中的异常值问题,这些异常值会阻碍低秩适应和量化过程,导致在移动设备等边缘计算场景部署时出现显著性能下降。在构建过程层面,研究团队需要解决模型预训练和微调阶段的双重异常值消除难题,包括设计替代Softmax的异常值无感注意力层、开发小步持续学习策略GERM-T以避免从头训练的计算开销。此外,模型还需在保持基因组序列长程依赖建模能力的同时,实现92.14%的峰度降低和82.77%的无穷范数缩减。
常用场景
经典使用场景
在基因组学建模领域,GERM数据集通过其高效的异常值消除机制,为研究者提供了一个强大的工具。该数据集特别适用于在计算资源受限的环境中,如移动设备或边缘计算平台,进行基因组序列的分析和建模。GERM通过替换传统注意力层为无异常值机制,显著提升了模型的适应速度和量化鲁棒性,使其成为处理大规模基因组数据的理想选择。
衍生相关工作
GERM数据集的创新方法催生了一系列相关研究,特别是在高效基因组建模领域。基于GERM的框架,研究者们开发了GERM-T,一种通过小步持续学习策略优化模型性能的衍生方法。此外,GERM的无异常值机制也被应用于其他基础模型,如DNABERT-2和Nucleotide Transformer,进一步推动了低资源环境下基因组建模技术的发展。这些工作不仅扩展了GERM的应用范围,也为基因组学与人工智能的交叉研究提供了新的方向。
数据集最近研究
最新研究方向
近年来,基因组学领域对计算资源高效利用的需求日益增长,特别是在资源受限的环境下部署基因组基础模型(GFM)成为研究热点。GERM数据集通过引入无异常值(outlier-free)的注意力机制,显著提升了模型在低秩适应(LoRA)和后训练量化(PTQ)中的性能。该数据集的最新研究方向集中在优化基因组基础模型的压缩性能和快速适应能力,特别是在移动设备和边缘计算环境中的应用。GERM的创新之处在于其异常值去除技术,这不仅加速了模型适应过程,还降低了计算成本,同时增强了量化鲁棒性。此外,GERM-T策略通过小步持续学习(small-step continual learning)在无异常值框架内进一步优化模型性能,避免了从头训练的昂贵计算开销。这些进展为基因组学领域的研究者提供了在资源受限条件下高效部署和微调大型模型的实用解决方案,推动了基因组学研究的普及化和实际应用。
相关研究论文
  • 1
    Fast and Low-Cost Genomic Foundation Models via Outlier Removal西北大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作