five

AsEP

收藏
arXiv2024-07-26 更新2024-07-27 收录
下载链接:
https://github.com/biochunan/AsEP-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AsEP数据集由伦敦大学学院结构分子生物学系创建,是一个专门用于抗体特异性表位预测的过滤抗体-抗原复合体结构数据集。该数据集包含1723个独特的抗体-抗原复合体,通过Python接口提供易于使用的图表示和预构建的嵌入方法。数据集的创建过程包括从抗体数据库中提取、清洗和处理数据,确保数据平衡和多样性。AsEP数据集主要应用于抗体设计领域,旨在通过提供高质量的数据集来改进表位预测方法,从而优化抗体工程和理解抗体-抗原相互作用。

The AsEP dataset was created by the Department of Structural Molecular Biology, University College London. It is a curated structural dataset of antibody-antigen complexes specifically designed for antibody-specific epitope prediction. This dataset contains 1,723 unique antibody-antigen complexes, and provides user-friendly graph representations and pre-built embedding methods via a Python interface. The dataset construction process involves extracting, cleaning and processing data from antibody databases, ensuring balanced and diverse data. The AsEP dataset is primarily applied in the field of antibody design, aiming to improve epitope prediction methods by providing high-quality datasets, thereby optimizing antibody engineering and advancing the understanding of antibody-antigen interactions.
提供机构:
伦敦大学学院结构分子生物学系
创建时间:
2024-07-26
原始信息汇总

AsEP Dataset 概述

数据集简介

AsEP(Antibody-specific Epitope Prediction)数据集用于抗体特异性表位预测。该数据集用于论文《AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction》,提交至 NeurIPS 2024 数据集和基准测试。

数据集下载

原始数据集可从 Zenodo 下载。此外,还提供了命令行脚本下载数据集: shell download-asep /path/to/directory AsEP

数据集接口

数据集提供了 Python 接口 asep,包含以下功能:

  • 数据集接口
  • 加载预构建的抗体-抗原复合物图
  • 构建神经网络模型,使用蛋白质语言模型(PLM)进行节点嵌入和图神经网络(GNN)进行图表示
  • 训练和评估脚本

安装

支持通过 devcontainerconda 环境进行安装。

数据加载

抗体-抗原复合物以二维图对形式提供,包含两种节点特征:

  • 独热编码
  • 使用 AntiBERTy 和 ESM2 预计算的嵌入

示例代码: python from asep.data.asepv1_dataset import AsEPv1Dataset

asepv1_dataset = AsEPv1Dataset(root=./data, name=asep, feat_type=one_hot) graph_pair = asepv1_dataset[0] node_labels_b = graph_pair.y_b node_labels_g = graph_pair.y_g edge_index_bg = graph_pair.edge_index_bg

数据分割

支持两种分割方法:epitope_ratioepitope_group

示例代码: python split_idx = asepv1_dataset.get_idx_split(split_method="epitope_ratio") train_set = asepv1_dataset[split_idx[train]] valid_set = asepv1_dataset[split_idx[valid]] test_set = asepv1_dataset[split_idx[test]]

评估

提供评估器用于评估模型性能: python from asep.data.asepv1_dataset import AsEPv1Evaluator

evaluator = AsEPv1Evaluator() result_dict = evaluator.eval({y_pred: y_pred, y_true: y_true})

基准性能

epitope ratioepitope group 两种设置下,多个深度学习模型的性能如下:

Epitope Ratio

Algorithm MCC Precision Recall AUCROC F1
WALLE 0.210 (0.020) 0.235 (0.018) 0.422 (0.028) 0.635 (0.013) 0.258 (0.018)
EpiPred 0.029 (0.018) 0.122 (0.014) 0.180 (0.019) 0.142 (0.016)
ESMFold 0.028 (0.010) 0.137 (0.019) 0.043 (0.006) 0.060 (0.008)
ESMBind 0.016 (0.008) 0.106 (0.012) 0.121 (0.014) 0.506 (0.004) 0.090 (0.009)
MaSIF-site 0.037 (0.012) 0.125 (0.015) 0.183 (0.017) 0.114 (0.011)

Epitope Group

Algorithm MCC Precision Recall AUCROC F1
WALLE 0.077 (0.015) 0.143 (0.017) 0.266 (0.025) 0.544 (0.010) 0.145 (0.014)
EpiPred -0.006 (0.015) 0.089 (0.011) 0.158 (0.019) 0.112 (0.014)
ESMFold 0.018 (0.010) 0.113 (0.019) 0.034 (0.007) 0.046 (0.009)
ESMBind 0.002 (0.008) 0.082 (0.011) 0.076 (0.011) 0.500 (0.004) 0.064 (0.008)
MaSIF-site 0.046 (0.014) 0.164 (0.020) 0.174 (0.015) 0.128 (0.012)
搜集汇总
数据集介绍
main_image_url
构建方式
AsEP数据集的构建基于从Antibody Database (AbDb)中提取的11,767个抗体文件,这些文件最初来源于Protein Data Bank (PDB)。通过筛选和处理,最终保留了4,081个符合标准的抗体-抗原复合物。为了确保数据集的多样性和代表性,研究团队使用MMseqs2工具对这些复合物进行了聚类,并根据抗体重链和轻链以及抗原序列的相似性进行了去重处理,最终形成了包含1,723个独特抗体-抗原复合物的AsEP数据集。此外,数据集还提供了预构建的图表示形式,支持自定义嵌入方法,并配备了易于使用的Python接口。
使用方法
AsEP数据集可以通过提供的Python接口轻松加载和使用。用户可以使用PyTorch Geometric的数据加载器来处理数据集,并利用预构建的图表示形式进行模型训练和评估。数据集支持多种节点嵌入方法,用户可以根据需要选择合适的嵌入方式。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并进行相关研究。通过这些工具和资源,研究人员可以开发和验证新的表位预测方法,推动抗体设计领域的发展。
背景与挑战
背景概述
在免疫学领域,抗体-抗原相互作用的研究对于理解免疫反应和开发新型治疗策略至关重要。然而,由于抗体的固有变异性,抗原表位的识别仍然是一个具有挑战性的任务。尽管已经开发了许多用于一般蛋白质结合位点预测的深度学习方法,但这些方法在抗原表位预测中的适用性仍未得到充分研究。为了填补这一空白,Chu’nan Liu、Lilian Denzler、Yihong Chen、Andrew Martin和Brooks Paige等研究人员于2024年创建了AsEP数据集,这是一个经过筛选的抗体-抗原复合物结构数据集,旨在为抗体特异性表位预测提供一个基准。AsEP数据集是目前同类数据集中最大的,提供了聚类的表位组,使研究社区能够开发和测试新的表位预测方法。该数据集的创建不仅推动了抗体设计领域的发展,还为未来的方法设计提供了指导。
当前挑战
AsEP数据集在构建过程中面临了多个挑战。首先,抗原表位预测的复杂性在于抗体和抗原之间的相互作用具有高度的特异性和多样性,现有的数据集在规模和表位多样性方面存在不足。其次,构建过程中需要处理大量的抗体-抗原复合物结构,确保数据的质量和一致性。此外,现有的方法在表位预测任务上的表现不佳,表明需要更复杂和全面的模型来解决这一问题。AsEP数据集的发布旨在解决这些挑战,通过提供一个大规模、多样化的数据集,促进更精确的抗体特异性表位预测方法的发展。
常用场景
经典使用场景
在抗体设计领域,AsEP数据集的经典应用场景主要集中在抗原表位预测任务上。该数据集通过提供大规模的抗体-抗原复合物结构数据,支持研究人员开发和测试新的表位预测方法。具体而言,AsEP数据集允许研究者利用深度学习和图神经网络技术,分析抗体与抗原之间的相互作用,从而精确预测抗原表面的表位区域。
解决学术问题
AsEP数据集解决了抗体设计中的一个关键学术问题,即抗原表位预测的准确性。由于抗体的高度可变性,传统的蛋白质结合位点预测方法在表位预测任务中表现不佳。AsEP数据集通过提供丰富的抗体-抗原复合物结构数据,为研究者提供了一个统一的评估平台,促进了新方法的开发和验证。这不仅提高了表位预测的准确性,还为理解抗体-抗原相互作用提供了新的视角。
实际应用
在实际应用中,AsEP数据集为抗体药物的研发提供了重要支持。通过精确预测抗原表位,研究人员可以更有效地设计和优化抗体药物,从而加速新药的开发过程。此外,AsEP数据集还可用于疫苗设计、免疫治疗和诊断试剂的开发,为多种生物医学应用提供了基础数据支持。
数据集最近研究
最新研究方向
在抗体设计领域,抗原表位预测是一个关键但具有挑战性的任务。AsEP数据集的引入为这一领域的研究提供了新的基准。最近的研究方向主要集中在利用深度学习和图神经网络来提高抗原表位预测的准确性。通过结合蛋白质语言模型和图神经网络,研究者们能够更好地捕捉抗体和抗原之间的复杂相互作用。此外,将任务重新定义为二分图链接预测,不仅提高了模型的性能,还增强了模型的可解释性。这些研究不仅推动了抗体设计的前沿,还为未来的方法设计提供了指导。
相关研究论文
  • 1
    AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction伦敦大学学院结构分子生物学系 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作