Expanded Standardized Collection for Antimicrobial Peptide Evaluation (ESCAPE)

Name: Expanded Standardized Collection for Antimicrobial Peptide Evaluation (ESCAPE)
Creator: 哥伦比亚安第斯大学
Published: 2025-11-07 05:10:48
License: 暂无描述

arXiv2025-11-07 更新2025-11-11 收录

下载链接：

https://doi.org/10.7910/DVN/C69MCD

下载链接

链接失效反馈

官方服务：

资源简介：

ESCAPE数据集是一个包含超过8万个肽的全面数据集，这些肽来自27个经过验证的公共数据库。该数据集将抗微生物肽与负序列分开，并将它们的函数注释纳入到一个生物上连贯的多标签层次结构中，捕捉跨抗菌、抗真菌、抗病毒和抗寄生虫类别的活动。ESCAPE数据集的创建旨在为AI驱动的抗微生物肽研究提供一个全面且可重复的评估框架。数据集的构建过程包括从公共数据库收集数据、预处理和验证序列、标准化功能注释以及将数据集划分为交叉验证和测试集。该数据集适用于解决抗微生物耐药性（AMR）问题，旨在通过加速抗微生物肽的发现来寻找替代抗生素的解决方案。

The ESCAPE dataset is a comprehensive collection of over 80,000 peptides sourced from 27 validated public databases. This dataset separates antimicrobial peptides (AMPs) from negative sequences, and incorporates their functional annotations into a biologically coherent multi-label hierarchical structure that captures activities spanning antibacterial, antifungal, antiviral, and antiparasitic categories. The ESCAPE dataset was developed to provide a comprehensive and reproducible evaluation framework for AI-driven antimicrobial peptide research. The dataset construction pipeline comprises data collection from public databases, sequence preprocessing and validation, standardized functional annotation, and partitioning of the dataset into cross-validation and test sets. This dataset is applicable to addressing the antimicrobial resistance (AMR) crisis, and aims to identify alternative antibiotic solutions by accelerating the discovery of antimicrobial peptides.

提供机构：

哥伦比亚安第斯大学

创建时间：

2025-11-07

搜集汇总

数据集介绍

构建方式

在抗菌肽研究领域，数据碎片化与标注不一致长期制约着计算方法的进展。ESCAPE数据集通过整合27个经过验证的公共数据库，构建了包含超过80,000条多肽序列的标准化集合。采用严格的数据清洗流程，剔除含合成残基与未定义氨基酸的序列，保留5-250个残基长度的多肽以确保结构相关性。通过合并重复序列并整合功能注释，建立了涵盖抗菌、抗真菌、抗病毒和抗寄生虫的四级生物层级标注体系，同时基于UniProt数据库构建高质量非抗菌肽负样本集，形成完整的监督学习框架。

特点

该数据集最显著的特征在于其多层次标注体系与规模优势。不仅包含21,409条抗菌肽与60,950条非抗菌肽的二元分类，更通过精细的功能注释将抗菌活性细分为四个主要类别，其中16,106条具抗菌活性，4,726条具抗病毒特性。序列长度分布呈现典型生物学特征：抗菌肽平均长度约30个氨基酸，而非抗菌肽则呈现更广泛的长度分布。数据划分采用三折策略，两个交叉验证折与一个独立测试折保持一致的标签分布，有效支持模型泛化能力评估。

使用方法

该数据集为多标签抗菌肽分类任务提供了标准化评估框架。研究者可采用两折交叉验证方案，在训练集上优化模型参数，在测试集上进行最终性能评估。推荐使用平均精度均值与F1分数作为核心评估指标，特别关注在数据稀缺类别上的表现。对于模型构建，可单独使用序列信息或结合结构特征，ESCAPE基线模型展示了通过双向交叉注意力机制融合序列与三维距离矩阵的有效性。数据集支持七种现有方法的基准测试，为公平比较不同架构提供了统一平台。

背景与挑战

背景概述

抗菌肽作为对抗日益严峻的抗菌药物耐药性问题的潜在分子，近年来受到广泛关注。ESCAPE数据集由哥伦比亚洛斯安第斯大学的研究团队于2025年创建，旨在解决现有抗菌肽数据分散、标注不一致及缺乏标准化评估框架的瓶颈。该数据集整合了27个已验证数据库中的逾八万条肽序列，构建了涵盖抗菌、抗真菌、抗病毒和抗寄生虫功能的多标签分类体系，为人工智能驱动的抗菌肽发现提供了统一且可复现的评估基础，显著推动了计算生物学在抗菌药物研发领域的应用。

当前挑战

在抗菌肽分类领域，传统方法多局限于二元分类，难以捕捉肽分子对多种病原体的协同作用机制，且现有数据集规模有限、标注粒度不一，导致模型泛化能力不足。ESCAPE数据集的构建面临多重挑战：需整合异构数据源的标注体系，建立生物学意义明确的多层级功能分类框架；同时需处理序列冗余、合成残基过滤及长度标准化等数据清洗问题，确保数据质量与一致性。此外，数据集中类别分布高度不均衡，尤其抗寄生虫等稀有类别样本稀缺，对模型学习提出了更高要求。

常用场景

经典使用场景

在抗菌肽研究领域，ESCAPE数据集为多标签分类任务提供了标准化评估框架。该数据集整合了来自27个已验证数据库的超过8万条肽序列，构建了包含抗菌、抗真菌、抗病毒和抗寄生虫四大功能类别的多层次标注体系。研究人员利用该数据集训练和验证深度学习模型，通过序列和结构信息的融合，精准预测肽分子的多重生物活性，显著提升了抗菌肽功能预测的准确性和泛化能力。

衍生相关工作

基于ESCAPE数据集衍生的经典工作包括Transformer架构的多模态融合模型和跨数据库标注统一方法。研究者开发了双向交叉注意力机制，将肽序列信息与三维空间结构特征深度融合，在保持模型轻量化的同时实现了性能突破。此外，该数据集催生了多个针对低丰度类别（如抗寄生虫肽）的数据增强策略，推动了不平衡多标签学习在生物信息学领域的方法创新。

数据集最近研究