bacbench-antibiotic-resistance-dna

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/macwiatrak/bacbench-antibiotic-resistance-dna

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含25,032个细菌基因组序列的数据集，涵盖39个物种，每个基因组序列都带有抗菌药物耐药性标签。基因组DNA序列从GenBank提取，标签则来自AST Browser，包括二元（耐药/敏感）标签和最小抑菌浓度（MIC）回归值。数据集为MIC回归预测提供了56种独特的抗菌药物，为二元标签提供了36种。对于二元标签，只包括AST Browser提供的耐药和敏感标签，排除了模糊标签。推荐使用流式加载方式来处理数据集，以防止内存错误。数据集支持k折交叉验证，具体切分方法在README中有详细描述。

创建时间：

2025-05-05

原始信息汇总

数据集概述

基本信息

数据集名称: 抗生素耐药性预测数据集（全细菌基因组DNA）
数据集地址: https://huggingface.co/datasets/macwiatrak/bacbench-antibiotic-resistance-dna
许可证: Apache-2.0
标签: AMR, antibiotic, resistance, bacteria, genomics, dna
大小类别: 1K<n<10K

数据内容

数据来源:
- 基因组DNA序列提取自GenBank
- 抗生素耐药性标签提取自Antibiotic Susceptibility Test (AST) Browser
数据量: 25,032个细菌基因组，涵盖39个物种
数据类型:
- 基因组DNA序列（不同contig以空格分隔）
- 抗生素耐药性标签（包括二元标签和最小抑制浓度（MIC）回归值）

标签信息

二元标签: binary_labels.csv（36种抗生素）
MIC回归标签: mic_regression_labels.csv（56种抗生素）
标签处理:
- MIC值经过log1p标准化
- 二元标签仅包含明确标记为"易感"或"耐药"的样本

数据集结构

特征:
- genome_name: 字符串
- contig_name: 字符串序列
- dna_sequence: 字符串
- taxid: 字符串
分割:
- 训练集（train）: 26,052个样本，110,813,875,147字节
下载大小: 51,625,216,055字节
数据集大小: 110,813,875,147字节

使用建议

加载方式: 推荐使用流模式加载以防止内存错误
模型训练:
- 采用k-fold分割（5等分）
- 二元标签使用StratifiedKFold
- 回归标签使用KFold
- 训练集进一步划分为训练和验证集（验证集占20%）
评估指标:
- 二元标签: AUPRC
- 回归标签: R2

相关资源

GitHub仓库（包含DNA和蛋白质语言模型嵌入代码）
蛋白质序列数据集

搜集汇总

数据集介绍

构建方式

该数据集构建于微生物基因组学与抗生素耐药性研究的交叉领域，通过系统整合GenBank数据库中的25,032个细菌全基因组序列数据，并采用Antibiotic Susceptibility Test Browser提供的耐药性标注信息。基因组序列以contig为单位保留原始空间分隔结构，同时针对56种抗菌药物的最小抑菌浓度（MIC）进行log1p标准化处理，以及36种药物的二元耐药性分类标注。数据筛选过程中严格排除了样本量不足的抗菌药物类别及模糊标注样本，确保数据质量。

使用方法

建议采用k-fold交叉验证策略应对数据分布不均衡问题，针对二元分类任务推荐使用分层抽样（StratifiedKFold），回归任务则采用常规KFold划分。技术实现上可通过HuggingFace数据集库的streaming模式动态加载，配合pandas快速关联基因组序列与对应耐药性标签。评估指标应选用AUPRC（二元分类）和R2（回归）以准确反映模型性能，官方GitHub仓库提供DNA语言模型嵌入和蛋白序列分析的全流程代码参考，与配套蛋白序列数据集形成多模态研究体系。

背景与挑战

背景概述

抗生素耐药性已成为全球公共卫生领域的重大挑战，bacbench-antibiotic-resistance-dna数据集应运而生，旨在通过基因组学手段预测细菌对抗生素的耐药性。该数据集由研究人员Maciej Wiatrak等人构建，收录了来自GenBank的25,032个细菌全基因组序列，涵盖39个菌种，并整合了美国国家生物技术信息中心（NCBI）抗生素敏感性测试（AST）数据库的耐药性标签。数据集不仅提供耐药/敏感的二元分类标签，还包含经log1p归一化的最小抑菌浓度（MIC）回归值，为耐药性机制研究提供了多维度分析基础。其创新性在于首次实现了全基因组DNA序列与大规模耐药表型数据的系统关联，为开发基于深度学习的耐药性预测模型奠定了数据基石。

当前挑战

该数据集面临双重技术挑战：在科学问题层面，细菌耐药性受多基因协同调控且存在菌种异质性，如何从高度碎片化的基因组contigs中提取跨物种普适性特征成为关键瓶颈；在数据构建层面，需处理原始数据中抗菌药物样本量不均衡问题（最终筛选56种MIC预测药物和36种二元分类药物），同时解决AST浏览器中模糊标签的清洗难题。数据应用时，因不同抗生素的有效样本量差异显著，传统固定数据集划分会导致评估偏差，需采用分层K折交叉验证等特殊策略来确保模型泛化能力评估的可靠性。

常用场景

经典使用场景

在微生物基因组学领域，bacbench-antibiotic-resistance-dna数据集为抗生素耐药性预测研究提供了重要支持。该数据集整合了25,032个细菌全基因组序列及对应的药敏试验结果，研究者可通过深度学习模型分析DNA序列特征与耐药表型的关联，建立端到端的预测框架。其典型应用场景包括构建卷积神经网络或Transformer架构，从原始基因组序列中自动提取耐药性相关生物标志物。

解决学术问题

该数据集有效解决了抗生素耐药性研究中的关键瓶颈问题。通过提供标准化的全基因组序列与药敏数据映射关系，研究者能够系统探索耐药性决定因子的分子机制。其包含的56种抗菌药物最小抑菌浓度(MIC)回归值和36种二元标签，支持从分类和回归双维度解析耐药谱系，为开发多任务学习模型提供了理想基准。数据集填补了基因组序列与表型数据间跨模态关联研究的空白。

实际应用

在临床诊断和公共卫生监测中，该数据集支撑的预测模型可实现快速耐药性筛查。医疗机构可通过全基因组测序数据实时预测病原体耐药谱，辅助精准用药决策。制药企业利用该数据集训练的模型能加速新型抗生素的靶点发现，而公共卫生部门则可基于大规模基因组监测数据构建区域性耐药趋势预警系统。其流式加载设计特别适合处理海量基因组数据。

数据集最近研究