BacBench

github2025-05-28 更新2025-05-31 收录

下载链接：

https://github.com/macwiatrak/BacBench

下载链接

链接失效反馈

官方服务：

资源简介：

BacBench是一个多尺度、多任务的基准，用于评估跨越细菌生命树的细菌基因组学的机器学习模型。目前BacBench包括6个从公共数据库收集和整理的任务：(1) 必需基因预测，(2) 操纵子识别，(3) 蛋白质-蛋白质相互作用(PPI)，(4) 菌株聚类，(5) 抗生素抗性预测和(6) 表型性状预测。

BacBench is a multi-scale, multi-task benchmark designed to evaluate machine learning models across the bacterial genomic landscape. Currently, BacBench encompasses six tasks collected and curated from public databases: (1) essential gene prediction, (2) operon identification, (3) protein-protein interaction (PPI), (4) strain clustering, (5) antibiotic resistance prediction, and (6) phenotypic trait prediction.

创建时间：

2025-05-16

原始信息汇总

BacBench数据集概述

数据集简介

名称：BacBench
类型：多尺度、多任务基准数据集
用途：评估细菌基因组学的机器学习模型
任务数量：6个
数据来源：公共数据库收集和整理

包含任务

必需基因预测
操纵子识别
蛋白质-蛋白质相互作用(PPI)
菌株聚类
抗生素耐药性预测
表型特征预测

数据集特点

数据模态：DNA序列和蛋白质序列
数据规模：
- 必需基因预测：蛋白质(59.2MB)/DNA(92.2MB)
- 操纵子识别：蛋白质(15.3MB)/DNA(24MB)
- PPI：蛋白质(58.1GB)
- 菌株聚类：蛋白质(54.4GB)/DNA(81GB)
- 抗生素耐药性：蛋白质(38.8GB)/DNA(54.9GB)
- 表型特征：蛋白质(36GB)/DNA(51.1GB)

数据获取

存储位置：HuggingFace平台
访问方式：通过load_dataset函数加载
流式加载建议：适用于大型数据集

技术支持

依赖框架：PyTorch、HuggingFace Transformers、PyTorch Lightning
推荐环境：Python 3.10、GPU支持
安装方式：通过GitHub仓库安装

基准模型

模型名称	输入类型	参数量	维度	最大上下文长度
Mistral-DNA	DNA	138M	768	512
DNABERT-2	DNA	117M	768	512
Nucleotide Transformer	DNA	250M	768	2048
ESM-2	蛋白质序列	35M	480	1024
ESM-C	蛋白质序列	300M	960	1024
ProtBert	蛋白质序列	420M	1024	1024
Bacformer	多蛋白质序列	27M	480	6000

功能支持

基因组嵌入：支持基因和全基因组级别的嵌入
模型评估：提供各任务的评估脚本
基因组处理：支持从NCBI/GenBank下载和预处理基因组

引用信息

引用格式：待公布(t.b.a)

联系方式

问题反馈：通过GitHub仓库提交issue

致谢

感谢datasets、transformers、FAPLM、flash-attention等开源项目的作者

搜集汇总

数据集介绍

构建方式

BacBench作为细菌基因组学领域的多尺度多任务基准数据集，其构建过程充分整合了公共数据库资源。研究团队从6个关键任务维度（必需基因预测、操纵子识别、蛋白质相互作用、菌株聚类、抗生素耐药性预测和表型特征预测）系统性地收集并整理了数据。通过采用PyTorch和HuggingFace Transformers等技术框架，数据集实现了基因组嵌入和预处理功能的标准化处理。值得注意的是，所有数据均经过严格的质控流程，并以DNA序列和蛋白质序列两种模态存储于HuggingFace平台，支持流式传输以应对大规模数据的存储挑战。

特点

该数据集最显著的特点是实现了细菌生命树的全覆盖评估，支持包括ESM-2、ProtBert、Bacformer等8种前沿模型的多维度比较。其多任务架构允许研究者在统一框架下评估模型性能，而双模态数据存储方案（DNA与蛋白质序列）则为跨模态研究提供了可能。数据集特别设计了基因组级和基因级两种嵌入粒度，并创新性地引入序列重叠技术处理长序列问题，这些特性使其在细菌基因组学领域具有独特的 methodological 价值。

使用方法

使用BacBench需通过GitHub仓库安装特定Python环境，建议配置GPU以支持模型推理。典型工作流包含三个关键步骤：首先通过HuggingFace接口加载流式数据集；随后利用预置脚本进行基因组嵌入，支持批量处理和切片采样；最后调用任务专用评估脚本进行性能验证。数据集特别提供了NCBI/GenBank基因组下载与预处理工具链，用户可通过taxid或assembly_id快速获取目标基因组。值得注意的是，针对DNABERT-2等特殊模型需单独配置运行环境，而对Evo等大模型则建议仅在子任务上测试。

背景与挑战

背景概述

BacBench是由研究人员于2025年推出的一个多尺度、多任务的基准测试数据集，专注于评估机器学习模型在细菌基因组学领域的性能。该数据集由公开数据库收集并精心整理，涵盖了细菌生命树中的六大核心任务：必需基因预测、操纵子识别、蛋白质相互作用预测、菌株聚类、抗生素耐药性预测以及表型性状预测。BacBench的创建旨在为基因组学研究人员提供一个标准化的评估平台，支持多种模型对细菌基因组进行嵌入和评估，从而推动细菌基因组学领域的发展。

当前挑战

BacBench面临的挑战主要体现在两个方面。首先，在领域问题方面，细菌基因组数据的复杂性和多样性对模型的泛化能力提出了严峻考验，特别是在处理跨物种基因组数据时，模型需要具备强大的特征提取和模式识别能力。其次，在构建过程中，数据集的规模庞大且模态多样（包括DNA序列和蛋白质序列），对数据存储、计算资源和预处理流程提出了较高要求；同时，不同任务之间的数据分布差异也为模型的统一评估带来了挑战。

常用场景

经典使用场景

在微生物基因组学领域，BacBench数据集为研究者提供了一个多尺度、多任务的评估平台，涵盖了从基因功能预测到菌株分类的多个关键任务。其经典使用场景包括利用机器学习模型对细菌基因组进行嵌入和评估，特别是在预测必需基因、识别操纵子、预测抗生素抗性等方面。通过整合来自公共数据库的多样化任务，BacBench能够全面评估模型在细菌基因组学中的表现，为研究者提供了一个标准化的基准测试环境。

实际应用

在实际应用中，BacBench数据集被广泛应用于药物开发、病原体监测和合成生物学等领域。例如，在抗生素开发中，研究者可以利用其抗生素抗性预测任务筛选潜在药物靶点；在公共卫生领域，菌株聚类任务可用于追踪病原体传播路径。此外，该数据集支持从基因组预处理到模型评估的全流程，为工业界和学术界的微生物组学研究提供了高效工具。

衍生相关工作

围绕BacBench数据集，已衍生出多项经典研究工作，包括基于ESM-2和ProtBert的蛋白质序列嵌入方法、针对细菌基因组的注意力机制优化模型Bacformer，以及适应长序列的DNA嵌入技术如Nucleotide Transformer。这些工作显著提升了细菌基因组分析的精度和效率，部分成果已被整合到生物信息学标准流程中，推动了整个领域的算法进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集