as-cle-bert/AMR-Gene-Families

Name: as-cle-bert/AMR-Gene-Families
Creator: as-cle-bert
Published: 2024-04-01 22:37:51
License: 暂无描述

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/as-cle-bert/AMR-Gene-Families

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个主要特征：label和text。label特征是一个分类标签，包含12种不同的类别，主要涉及抗生素抗性相关的蛋白质或酶，如β-内酰胺酶、抗生素外排泵等。text特征是一个字符串类型的数据，可能包含与这些标签相关的文本信息。数据集分为训练集和测试集，训练集包含1196个样本，测试集包含300个样本。数据集的下载大小为436080字节，总大小为1071444字节。

提供机构：

as-cle-bert

原始信息汇总

数据集概述

数据集特征

label
- 数据类型: 分类标签
- 类别名称:
  - 0: PDC beta-lactamase
  - 1: CTX-M beta-lactamase
  - 2: SHV beta-lactamase
  - 3: CMY beta-lactamase
  - 4: resistance-nodulation-cell division (RND) antibiotic efflux pump
  - 5: major facilitator superfamily (MFS) antibiotic efflux pump
  - 6: quinolone resistance protein (qnr)
  - 7: IMP beta-lactamase
  - 8: KPC beta-lactamase
  - 9: ACT beta-lactamase
  - 10: MCR phosphoethanolamine transferase
  - 11: VIM beta-lactamase
text
- 数据类型: 字符串

数据集分割

训练集 (train)
- 数据大小: 862454 字节
- 示例数量: 1196
测试集 (test)
- 数据大小: 208990 字节
- 示例数量: 300

数据集大小

下载大小: 436080 字节
数据集总大小: 1071444 字节

配置文件

默认配置 (default)
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在抗生素耐药性研究领域，AMR-Gene-Families数据集通过系统化收集与标注关键耐药基因家族序列而构建。其构建过程基于权威生物数据库，筛选出包括β-内酰胺酶、外排泵蛋白及磷酸乙醇胺转移酶等十二类典型耐药基因的文本序列数据。每个序列均经过严格的人工校验与分类，确保数据对应特定耐药机制家族，最终形成包含训练集与测试集的标准化语料库。

使用方法

研究人员可将该数据集直接应用于自然语言处理模型训练，尤其适合序列分类与基因家族识别任务。使用前需加载文本序列与对应标签，按照预设的训练-测试划分进行模型训练与评估。该数据集兼容主流深度学习框架，能够支撑从传统机器学习到预训练语言模型的多层次分析方法，助力抗生素耐药性监测与新型药物靶点探索。

背景与挑战

背景概述

在抗生素耐药性日益严峻的全球公共卫生背景下，精准识别耐药基因家族对于理解耐药机制和开发新型疗法至关重要。由as-cle-bert团队构建的AMR-Gene-Families数据集应运而生，其核心研究聚焦于利用自然语言处理技术对生物医学文本中的耐药基因进行自动分类。该数据集涵盖了包括β-内酰胺酶、抗生素外排泵等在内的12个关键耐药基因家族，旨在通过机器学习模型从科学文献中提取并归类相关基因信息，为生物信息学和计算生物学领域提供了重要的数据资源，助力于加速耐药性监测与研究的智能化进程。

当前挑战

该数据集致力于解决耐药基因文本分类的挑战，其核心问题在于生物医学文本的复杂性与专业性，要求模型能够准确理解基因家族间的细微语义差异。在构建过程中，主要挑战包括从非结构化科学文献中高效抽取和标注相关基因描述，确保类别平衡与数据质量，以及处理专业术语的多义性和上下文依赖性，这些因素共同增加了数据集构建的难度与模型训练的复杂性。

常用场景

经典使用场景

在抗生素耐药性研究领域，AMR-Gene-Families数据集为基因家族分类任务提供了关键支持。该数据集通过标注多种耐药基因家族，如β-内酰胺酶和抗生素外排泵，使研究者能够训练机器学习模型，精准识别基因序列所属的耐药机制类别。这一过程通常涉及自然语言处理技术，将基因序列视为文本进行特征提取与模式学习，从而实现对未知基因功能的预测与归类。

解决学术问题

该数据集有效应对了抗生素耐药基因识别中的分类挑战，解决了传统方法在基因功能注释上的效率与精度不足问题。通过提供标准化的标注数据，它支持了耐药机制的系统性研究，促进了基因型与表型关联分析的深化。其意义在于为微生物基因组学建立了可重复的基准，推动了耐药性监测与进化研究的定量化发展，对公共卫生领域的风险评估具有重要影响。

实际应用

在实际应用中，AMR-Gene-Families数据集被广泛用于临床微生物检测与环境监测。医疗机构利用基于该数据集训练的模型，快速分析病原体基因组中的耐药基因，辅助制定个性化治疗方案。同时，在农业与生态领域，该数据支持追踪耐药基因在环境中的传播路径，为抗生素使用管理与耐药性防控策略提供数据驱动的决策依据。

数据集最近研究