OmniGenBench

Name: OmniGenBench
Creator: 英国埃克塞特大学计算机科学系、中国国防科技大学、中国启源实验室
Published: 2025-05-20 22:16:25
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

http://arxiv.org/abs/2505.14402v1

下载链接

链接失效反馈

官方服务：

资源简介：

OmniGenBench是一个模块化的基准测试平台，旨在为可重复的基因组基础模型（GFM）评估提供一个统一的框架。它提供集中访问123个精心策划的基因组数据集，以及清晰的文档和标准化格式。该平台简化了数据在不同研究和训练任务中的重用，并确保了不同研究之间的一致性。它还促进了社区共享基因组数据集。OmniGenBench的模型模块提供了一个标准化的模型中心，具有统一的包装器和应用程序编程接口（API），集成了31个GFM，简化了不同GFM的集成。基准模块提供了全面的自动基准测试套件，涵盖多种基因组任务，包括123+个数据集和58+个指标。最后，解释模块集成了三个标准化的解释工具，以便研究人员可以常规地进行可重复的分析，例如基序发现和特征归因映射。

OmniGenBench is a modular benchmarking platform designed to provide a unified framework for reproducible evaluation of genomic foundation models (GFMs). It offers centralized access to 123 carefully curated genomic datasets, alongside clear documentation and standardized formats. This platform simplifies the reuse of data across diverse research and training tasks, while ensuring consistency across different studies. It also facilitates community-driven sharing of genomic datasets. The model module of OmniGenBench provides a standardized model hub with unified wrappers and application programming interfaces (APIs), integrating 31 GFMs to streamline the integration of diverse GFMs. The benchmarking module offers a comprehensive automated benchmarking suite that covers a wide range of genomic tasks, including over 123 datasets and more than 58 metrics. Finally, the interpretation module integrates three standardized interpretation tools, enabling researchers to conduct reproducible analyses routinely, such as motif discovery and feature attribution mapping.

提供机构：

英国埃克塞特大学计算机科学系、中国国防科技大学、中国启源实验室

创建时间：

2025-05-20

原始信息汇总

OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking

基本信息

标题: OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking
arXiv ID: arXiv:2505.14402v1
提交日期: 2025年5月20日
学科分类:
- Quantitative Biology > Genomics (q-bio.GN)
- Computation and Language (cs.CL)
DOI: 10.48550/arXiv.2505.14402

作者

Heng Yang
Jack Cole
Yuan Li
Renzhi Chen
Geyong Min
Ke Li

摘要

OmniGenBench是一个模块化基准测试平台，旨在统一基因组基础模型（GFMs）的数据、模型、基准测试和可解释性层。该平台通过标准化的一键评估功能，支持对任何GFM在五个基准测试套件中的评估，并无缝集成超过31个开源模型。通过自动化流程和社区可扩展功能，OmniGenBench解决了关键的可重复性挑战，包括数据透明度、模型互操作性、基准测试碎片化和黑盒可解释性。该平台旨在作为可重复基因组AI研究的基础设施，加速基因组规模建模时代的可信发现和协作创新。

全文链接

提交历史

版本1: 2025年5月20日提交，文件大小4,135 KB

搜集汇总

数据集介绍

构建方式

OmniGenBench是一个模块化的基准测试平台，旨在统一基因组基础模型（GFMs）的数据、模型、基准测试和可解释性层。该平台通过自动化流程和社区可扩展功能，整合了123个精心策划的基因组数据集，并提供了标准化的评估流程。数据集的构建包括数据解析、准备、共享和版本控制，确保数据格式的统一性和一致性。此外，平台还支持社区贡献新的数据集和模型，进一步扩展其生态系统。

特点

OmniGenBench数据集的特点在于其全面性和多样性，涵盖了DNA和RNA的多种基因组任务，包括结构预测、功能研究和工程应用。数据集经过严格筛选和标准化处理，确保数据质量和一致性。平台还提供了丰富的评估指标（58+）和自动化评估工具，支持多种模型架构和任务类型。此外，数据集的设计注重可扩展性，便于未来集成新的任务和模型。

使用方法

OmniGenBench数据集的使用方法包括四个核心模块：数据模块、模型模块、基准测试模块和可解释性模块。用户可以通过平台提供的标准化接口和自动化工具，快速评估和比较不同GFMs的性能。具体步骤包括加载目标模型、配置评估任务、运行自动化基准测试并生成性能报告。平台还提供了详细的教程和API文档，帮助用户快速上手并充分利用数据集的功能。

背景与挑战

背景概述

OmniGenBench是由英国埃克塞特大学计算机科学系Heng Yang等研究人员于2025年提出的模块化基因组基础模型基准测试平台。该平台旨在解决基因组人工智能研究中日益增长的可重复性评估需求，通过统一数据、模型、基准测试和可解释性层，为基因组基础模型（GFMs）提供标准化的一键式评估。OmniGenBench整合了31个以上开源模型和5个基准测试套件，通过自动化流程和社区可扩展功能，解决了数据透明度、模型互操作性、基准测试碎片化和黑盒可解释性等方面的可重复性差距。该平台已成为基因组规模建模时代可重复基因组AI研究的基础设施，推动了生命科学领域可信发现和协作创新。

当前挑战

OmniGenBench面临的挑战主要包括：1）领域问题挑战：基因组基础模型在基因组解读中存在模型可解释性不足、跨物种泛化能力有限等问题，难以满足临床和生物学验证的可靠性要求；2）构建过程挑战：在平台开发过程中需处理多源异构基因组数据的标准化问题，解决不同模型架构（如Transformer、Hyena、Mamba等）和标记化方案（如k-mer、字节对编码等）的互操作性难题，同时要设计能够评估'任意模型在任意基因组任务'表现的统一框架。此外，还需开发标准化可解释性工具来破解GFMs的黑盒特性，这对平台的模块化设计和自动化流程提出了极高要求。

常用场景

经典使用场景

OmniGenBench作为基因组基础模型（GFMs）的统一基准测试平台，其经典使用场景包括对多种开源GFMs进行标准化、一键式评估。该平台通过自动化流程和模块化设计，支持在五个基准测试套件上对任何GFMs进行性能比较，涵盖DNA和RNA等多种基因组任务。例如，研究人员可以利用OmniGenBench快速评估不同模型在RNA二级结构预测、基因表达调控或DNA序列分类等任务上的表现，从而为模型选择和优化提供数据支持。

解决学术问题

OmniGenBench解决了基因组AI研究中数据透明度不足、模型互操作性差、基准测试碎片化以及黑盒可解释性等关键学术问题。通过提供集中化的数据访问、标准化的模型接口和全面的评估指标，该平台显著提升了研究的可重复性。具体而言，它统一了123个基因组数据集的格式，集成了31种开源模型，并提供了58种评估指标，使研究人员能够公平、透明地比较不同模型在多样化基因组任务上的性能，从而推动基因组基础模型的发展和应用。

衍生相关工作

OmniGenBench的推出催生了一系列相关研究，包括基于其基准结果的模型优化工作（如OmniGenome的结构感知预训练改进）、跨模态基因组模型（如同时处理DNA和RNA的混合架构）以及新型可解释性工具的开发。平台整合的模型如DNABERT2、HyenaDNA和RNA-FM等已成为后续研究的基线模型，而其模块化设计也启发了其他领域（如蛋白质语言模型）的标准化基准平台构建。此外，社区通过该平台共享的扩展数据集和任务（如植物特异性基因组基准）进一步丰富了基因组AI研究的生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集