five

AsEP

收藏
github2024-06-07 更新2024-06-08 收录
下载链接:
https://github.com/biochunan/AsEP-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AsEP数据集用于深度学习方法在抗体特异性表位预测中的基准测试。该数据集包含了抗体-抗原复合物的2D图对,提供了两种类型的节点特征:one-hot编码和使用AntiBERTy及ESM2预先计算的嵌入。

The AsEP dataset is utilized for benchmarking deep learning methods in the prediction of antibody-specific epitopes. This dataset comprises 2D graph pairs of antibody-antigen complexes, offering two types of node features: one-hot encoding and precomputed embeddings using AntiBERTy and ESM2.
创建时间:
2024-05-30
原始信息汇总

AsEP Dataset概述

数据集描述

  • 名称: AsEP Dataset
  • 用途: 用于抗体特异性表位预测,支持论文《AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction》。
  • 下载链接: Zenodo

数据集结构

  • 数据类型: 抗体-抗原复合物的2D图对
  • 节点特征: 提供两种类型的节点特征,包括one-hot编码和使用AntiBERTy及ESM2预计算的嵌入。

数据集接口

  • Python包: asep
  • 功能: 提供数据集接口、加载预构建图、构建神经网络(使用蛋白质语言模型PLMs和图神经网络GNNs)、训练和评估脚本。

数据集安装与使用

  • 安装: 支持通过devcontainerconda环境安装。
  • 下载: 提供命令行工具download-asep下载数据集。
  • 数据加载器: 提供AsEPv1Dataset类,支持加载不同特征类型的数据。
  • 数据分割: 支持按epitope ratioepitope group进行数据分割。
  • 评估: 提供AsEPv1Evaluator类,用于评估模型性能。

基准性能

  • 评估指标: MCC, Precision, Recall, AUCROC, F1
  • 性能对比: 对比了WALLE、EpiPred、ESMFold、MaSIF-site和ESMBind等模型在epitope ratioepitope group设置下的性能。
搜集汇总
数据集介绍
main_image_url
构建方式
AsEP数据集的构建基于抗体-抗原复合物的2D图对,其中每个图对代表一个抗体和其对应的抗原。数据集通过整合AntiBERTy和ESM2模型生成的预计算嵌入,以及氨基酸残基的one-hot编码,提供了丰富的节点特征。这些特征被用于训练和评估深度学习模型,以预测抗体特异性表位。数据集的构建过程包括从原始数据中提取抗体-抗原复合物的结构信息,并将其转换为图结构,同时标注每个节点的表位信息。
特点
AsEP数据集的显著特点在于其对抗体-抗原复合物的细致表征,提供了两种类型的节点特征:one-hot编码和预计算嵌入。此外,数据集支持图神经网络(GNN)的训练和评估,适用于研究抗体特异性表位的预测。数据集还提供了3D结构可视化工具,便于研究人员直观理解抗体-抗原的相互作用。
使用方法
使用AsEP数据集时,用户可以通过提供的Python接口`asep`进行数据加载和处理。该接口支持多种数据加载方式,包括one-hot编码和预计算嵌入。用户可以通过简单的命令下载数据集,并使用内置的数据加载器进行数据分割和模型训练。此外,数据集还提供了评估工具,用于评估模型在抗体特异性表位预测任务上的性能。
背景与挑战
背景概述
AsEP数据集,全称为Antibody-specific Epitope Prediction,是由一组研究人员创建的,旨在解决抗体特异性表位预测的核心问题。该数据集的创建时间可追溯至2024年,主要研究人员或机构尚未公开,但其影响力已通过提交至NeurIPS 2024 Datasets and Benchmarks的论文[*AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction*](https://arxiv.org/abs/2407.18184v1)得以体现。该数据集通过提供抗体-抗原复合物的2D图对,结合预计算的嵌入和一热编码,为深度学习方法在抗体特异性表位预测领域的应用提供了坚实的基础。
当前挑战
AsEP数据集在构建过程中面临多项挑战。首先,抗体-抗原复合物的复杂性要求数据集提供精确的图结构和节点特征,这增加了数据处理的难度。其次,数据集的构建需要整合多种蛋白质语言模型(如AntiBERTy和ESM2)的嵌入,确保节点特征的多样性和准确性。此外,数据集的评估标准(如Epitope Ratio和Epitope Group)需要精确的模型性能评估,这对模型的训练和验证提出了高要求。最后,数据集的公开和使用需要克服技术接口的复杂性,确保用户能够方便地下载和使用数据集。
常用场景
经典使用场景
AsEP数据集在抗体特异性表位预测领域中具有经典应用场景。该数据集通过提供抗体-抗原复合物的2D图对,支持深度学习模型对抗体表位的精准预测。研究人员可利用数据集中的节点特征,如one-hot编码和预计算的AntiBERTy及ESM2嵌入,构建和训练图神经网络(GNN)模型。这些模型能够有效识别抗体与抗原之间的相互作用界面,从而在生物医学研究中发挥重要作用。
解决学术问题
AsEP数据集解决了抗体特异性表位预测中的关键学术问题。通过提供高质量的抗体-抗原复合物数据,该数据集使得研究人员能够开发和验证新的深度学习模型,从而提高表位预测的准确性和可靠性。这不仅推动了生物信息学领域的发展,还为疫苗设计和药物开发提供了重要的理论支持,具有深远的学术意义和影响。
衍生相关工作
AsEP数据集的发布催生了多项相关经典工作。例如,基于该数据集的深度学习模型如WALLE,通过结合蛋白质语言模型(PLM)和图神经网络(GNN),显著提升了抗体表位预测的性能。此外,ESMFold和ESMBind等模型也借鉴了AsEP数据集的结构和特征,进一步推动了蛋白质结构预测和抗体设计领域的发展。这些工作不仅丰富了生物信息学的研究内容,还为实际应用提供了新的技术手段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作