bacbench-antibiotic-resistance-protein-sequences

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/macwiatrak/bacbench-antibiotic-resistance-protein-sequences

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含25,032个细菌基因组，涵盖39个物种，并带有抗微生物药物耐药性标签。基因组蛋白序列是从GenBank中提取的，每个条目包含一个完整的细菌基因组，基因组中的不同contigs用空格分隔。耐药性标签来自Antibiotic Susceptibility Test (AST) Browser，包括二分类（耐药/敏感）标签以及最小抑菌浓度（MIC）的回归值，MIC值经过`log1p`标准化处理。数据集中排除了样本量少的抗生素，最终得到56种抗生素用于MIC回归预测，36种用于二分类标签。对于二分类情况，只包括AST Browser提供的敏感和耐药标签，排除了模糊标签。抗生素的组合被视为单独的药物。标签以CSV文件形式提供，包括二分类标签文件`binary_labels.csv`和MIC回归标签文件`mic_regression_labels.csv`。

This dataset contains 25,032 bacterial genomes spanning 39 species, paired with antimicrobial resistance (AMR) labels. Genomic protein sequences were extracted from GenBank, with each entry holding a complete bacterial genome, where distinct contigs within the genome are separated by spaces. The resistance labels are sourced from the Antibiotic Susceptibility Test (AST) Browser, encompassing both binary (resistant/susceptible) classification labels and regression values of the minimum inhibitory concentration (MIC). The MIC values were normalized using the `log1p` transformation. Antibiotics with inadequate sample sizes were excluded from the dataset. Eventually, 56 antibiotics were retained for MIC regression prediction, while 36 were utilized for binary classification labeling. For the binary classification task, only the susceptible and resistant labels provided by the AST Browser were included, with ambiguous labels excluded. Antibiotic combinations are treated as individual drugs. The labels are provided in CSV format, including the binary classification label file `binary_labels.csv` and the MIC regression label file `mic_regression_labels.csv`.

创建时间：

2025-05-05

原始信息汇总

抗生素耐药性预测数据集概述

数据集基本信息

名称: bacbench-antibiotic-resistance-protein-sequences
数据来源:
- 基因组蛋白序列: GenBank
- 抗生素耐药性标签: Antibiotic Susceptibility Test (AST) Browser (访问日期: 2024年10月23日)
数据量: 25,032个细菌基因组，涵盖39个物种
数据类型: 蛋白质序列及抗生素耐药性标签
许可证: Apache-2.0
标签类型:
- 二元标签 (耐药/敏感)
- 最小抑制浓度 (MIC) 回归值 (经过log1p标准化)

数据内容

特征:
- genome_name: 基因组名称 (字符串)
- contig_name: 基因组片段名称 (字符串序列)
- protein_id: 蛋白质ID (字符串序列)
- protein_sequence: 蛋白质序列 (字符串序列)
- taxid: 分类ID (字符串)
- locus_tag: 基因座标签 (字符串序列)
- start: 起始位置 (整数序列)
- end: 终止位置 (整数序列)
- product: 产物描述 (字符串序列)

标签信息

二元标签文件: binary_labels.csv (36种抗生素)
MIC回归标签文件: mic_regression_labels.csv (56种抗生素)

数据集统计

训练集大小: 40,490,436,864字节
训练集样本数: 26,052
下载大小: 34,207,458,365字节

使用建议

加载方式: 推荐使用流式加载以避免内存错误 python from datasets import load_dataset ds = load_dataset("macwiatrak/bacbench-antibiotic-resistance-protein-sequences", split="train", streaming=True)
数据分割: 建议使用k-fold分割 (5等分)
- 二元标签: 使用StratifiedKFold
- 回归标签: 使用KFold
- 验证集占比: 20%

相关资源

DNA序列表示数据集
GitHub代码库 (包含DNA和蛋白质语言模型嵌入代码)

搜集汇总

数据集介绍

构建方式

该数据集构建于25,032个细菌基因组的基础之上，涵盖39个不同菌种，其蛋白质序列数据源自GenBank数据库，通过提取全基因组蛋白序列并以空格分隔不同基因组片段。抗菌素耐药性标签则来源于NCBI的抗生素敏感性测试(AST)浏览器，包含二元耐药/敏感标签及经log1p归一化的最小抑菌浓度(MIC)回归值。为确保数据质量，筛选了56种抗菌素的MIC回归值和36种抗菌素的二元标签，并剔除了样本量不足的抗菌素及模糊标签。

特点

数据集以蛋白质序列为核心特征，每条记录包含基因组名称、片段标识、蛋白质ID及序列等结构化元数据，并附有详细的分类学标识和基因位置信息。其独特之处在于整合了高维基因组数据与临床相关的耐药性表型标签，支持从分子机制到表型的跨尺度研究。针对数据稀疏性问题，采用分层处理策略，允许用户根据抗菌素种类灵活选择二元分类或回归任务，为耐药性预测模型开发提供了多模态基准。

使用方法

建议使用流式加载模式处理大规模基因组数据以避免内存溢出，通过HuggingFace数据集库可实现高效数据流读取。标签数据以CSV格式独立存储，需通过基因组名称索引关联。针对数据分布不均衡的特性，推荐采用5折分层交叉验证，二元分类任务使用AUPRC指标，回归任务采用R2值评估。配套的GitHub仓库提供了基于DNA和蛋白质语言模型的嵌入方法，支持端到端的耐药性预测流程构建。

背景与挑战

背景概述

抗生素耐药性问题是全球公共卫生领域的重大挑战，bacbench-antibiotic-resistance-protein-sequences数据集由研究者Maciej Wiatrak等人构建，旨在通过全基因组蛋白质序列预测细菌对抗生素的耐药性。该数据集整合了来自GenBank的25,032个细菌基因组和NCBI抗生素敏感性测试数据库的耐药性标签，涵盖39种细菌物种及56种抗菌药物的最小抑制浓度数据。作为基因组学与耐药性预测交叉领域的重要资源，该数据集为开发基于深度学习的耐药性预测模型提供了标准化基准，推动了精准医疗和抗生素管理策略的发展。

当前挑战

该数据集面临双重挑战：在科学层面，细菌基因组的高度异质性和耐药机制复杂性导致特征提取困难，需解决序列长度差异大、耐药标记稀疏（36种抗菌药仅含二元标签）及跨物种泛化等问题；在技术层面，构建过程需处理GenBank原始数据的碎片化问题（如contig分离），并协调AST浏览器中模糊标签的过滤与标准化，其中对数转换的MIC值归一化与组合药物界定进一步增加了数据清洗复杂度。k-fold分层的必要性也反映了样本分布不均衡带来的模型验证挑战。

常用场景

经典使用场景

在微生物基因组学领域，bacbench-antibiotic-resistance-protein-sequences数据集被广泛用于抗生素耐药性预测模型的开发与评估。该数据集整合了25,032个细菌基因组的蛋白质序列及其对应的耐药性标签，为研究者提供了丰富的生物信息学素材。通过深度学习或传统机器学习方法，科研人员能够基于蛋白质序列特征构建预测模型，从而识别潜在的耐药性机制。数据集支持分类和回归两种任务，分别对应耐药性的二元判断和最小抑菌浓度预测。

解决学术问题

该数据集有效解决了抗生素耐药性研究中的关键瓶颈问题，包括耐药性标记的标准化整合与多物种基因组数据的统一表征。通过提供经过严格筛选的56种抗菌素的MIC回归值和36种抗菌素的二元标签，数据集填补了传统研究中样本量不足和标签模糊的缺陷。其对数归一化处理进一步提升了模型训练的稳定性，为探索跨物种耐药性进化规律和蛋白质功能关联提供了可靠的数据基础。

衍生相关工作

该数据集已催生多项创新性研究，包括基于蛋白质语言模型的耐药性预测框架ProGen和跨物种迁移学习系统BacTransfer。相关成果发表在《Nature Microbiology》等顶级期刊，推动了生物信息学与临床微生物学的交叉融合。开源社区围绕数据集开发了标准化评估基准Bacbench，包含DNA与蛋白质序列的联合嵌入方法，为后续研究提供了可复现的技术路线。

以上内容由遇见数据集搜集并总结生成