five

AsEP|抗体设计数据集|生物信息学数据集

收藏
arXiv2024-07-26 更新2024-07-27 收录
抗体设计
生物信息学
下载链接:
https://github.com/biochunan/AsEP-dataset
下载链接
链接失效反馈
资源简介:
AsEP数据集由伦敦大学学院结构分子生物学系创建,是一个专门用于抗体特异性表位预测的过滤抗体-抗原复合体结构数据集。该数据集包含1723个独特的抗体-抗原复合体,通过Python接口提供易于使用的图表示和预构建的嵌入方法。数据集的创建过程包括从抗体数据库中提取、清洗和处理数据,确保数据平衡和多样性。AsEP数据集主要应用于抗体设计领域,旨在通过提供高质量的数据集来改进表位预测方法,从而优化抗体工程和理解抗体-抗原相互作用。
提供机构:
伦敦大学学院结构分子生物学系
创建时间:
2024-07-26
原始信息汇总

AsEP Dataset 概述

数据集简介

AsEP(Antibody-specific Epitope Prediction)数据集用于抗体特异性表位预测。该数据集用于论文《AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction》,提交至 NeurIPS 2024 数据集和基准测试。

数据集下载

原始数据集可从 Zenodo 下载。此外,还提供了命令行脚本下载数据集: shell download-asep /path/to/directory AsEP

数据集接口

数据集提供了 Python 接口 asep,包含以下功能:

  • 数据集接口
  • 加载预构建的抗体-抗原复合物图
  • 构建神经网络模型,使用蛋白质语言模型(PLM)进行节点嵌入和图神经网络(GNN)进行图表示
  • 训练和评估脚本

安装

支持通过 devcontainerconda 环境进行安装。

数据加载

抗体-抗原复合物以二维图对形式提供,包含两种节点特征:

  • 独热编码
  • 使用 AntiBERTy 和 ESM2 预计算的嵌入

示例代码: python from asep.data.asepv1_dataset import AsEPv1Dataset

asepv1_dataset = AsEPv1Dataset(root=./data, name=asep, feat_type=one_hot) graph_pair = asepv1_dataset[0] node_labels_b = graph_pair.y_b node_labels_g = graph_pair.y_g edge_index_bg = graph_pair.edge_index_bg

数据分割

支持两种分割方法:epitope_ratioepitope_group

示例代码: python split_idx = asepv1_dataset.get_idx_split(split_method="epitope_ratio") train_set = asepv1_dataset[split_idx[train]] valid_set = asepv1_dataset[split_idx[valid]] test_set = asepv1_dataset[split_idx[test]]

评估

提供评估器用于评估模型性能: python from asep.data.asepv1_dataset import AsEPv1Evaluator

evaluator = AsEPv1Evaluator() result_dict = evaluator.eval({y_pred: y_pred, y_true: y_true})

基准性能

epitope ratioepitope group 两种设置下,多个深度学习模型的性能如下:

Epitope Ratio

Algorithm MCC Precision Recall AUCROC F1
WALLE 0.210 (0.020) 0.235 (0.018) 0.422 (0.028) 0.635 (0.013) 0.258 (0.018)
EpiPred 0.029 (0.018) 0.122 (0.014) 0.180 (0.019) 0.142 (0.016)
ESMFold 0.028 (0.010) 0.137 (0.019) 0.043 (0.006) 0.060 (0.008)
ESMBind 0.016 (0.008) 0.106 (0.012) 0.121 (0.014) 0.506 (0.004) 0.090 (0.009)
MaSIF-site 0.037 (0.012) 0.125 (0.015) 0.183 (0.017) 0.114 (0.011)

Epitope Group

Algorithm MCC Precision Recall AUCROC F1
WALLE 0.077 (0.015) 0.143 (0.017) 0.266 (0.025) 0.544 (0.010) 0.145 (0.014)
EpiPred -0.006 (0.015) 0.089 (0.011) 0.158 (0.019) 0.112 (0.014)
ESMFold 0.018 (0.010) 0.113 (0.019) 0.034 (0.007) 0.046 (0.009)
ESMBind 0.002 (0.008) 0.082 (0.011) 0.076 (0.011) 0.500 (0.004) 0.064 (0.008)
MaSIF-site 0.046 (0.014) 0.164 (0.020) 0.174 (0.015) 0.128 (0.012)
AI搜集汇总
数据集介绍
main_image_url
构建方式
AsEP数据集的构建基于从Antibody Database (AbDb)中提取的11,767个抗体文件,这些文件最初来源于Protein Data Bank (PDB)。通过筛选和处理,最终保留了4,081个符合标准的抗体-抗原复合物。为了确保数据集的多样性和代表性,研究团队使用MMseqs2工具对这些复合物进行了聚类,并根据抗体重链和轻链以及抗原序列的相似性进行了去重处理,最终形成了包含1,723个独特抗体-抗原复合物的AsEP数据集。此外,数据集还提供了预构建的图表示形式,支持自定义嵌入方法,并配备了易于使用的Python接口。
使用方法
AsEP数据集可以通过提供的Python接口轻松加载和使用。用户可以使用PyTorch Geometric的数据加载器来处理数据集,并利用预构建的图表示形式进行模型训练和评估。数据集支持多种节点嵌入方法,用户可以根据需要选择合适的嵌入方式。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并进行相关研究。通过这些工具和资源,研究人员可以开发和验证新的表位预测方法,推动抗体设计领域的发展。
背景与挑战
背景概述
在免疫学领域,抗体-抗原相互作用的研究对于理解免疫反应和开发新型治疗策略至关重要。然而,由于抗体的固有变异性,抗原表位的识别仍然是一个具有挑战性的任务。尽管已经开发了许多用于一般蛋白质结合位点预测的深度学习方法,但这些方法在抗原表位预测中的适用性仍未得到充分研究。为了填补这一空白,Chu’nan Liu、Lilian Denzler、Yihong Chen、Andrew Martin和Brooks Paige等研究人员于2024年创建了AsEP数据集,这是一个经过筛选的抗体-抗原复合物结构数据集,旨在为抗体特异性表位预测提供一个基准。AsEP数据集是目前同类数据集中最大的,提供了聚类的表位组,使研究社区能够开发和测试新的表位预测方法。该数据集的创建不仅推动了抗体设计领域的发展,还为未来的方法设计提供了指导。
当前挑战
AsEP数据集在构建过程中面临了多个挑战。首先,抗原表位预测的复杂性在于抗体和抗原之间的相互作用具有高度的特异性和多样性,现有的数据集在规模和表位多样性方面存在不足。其次,构建过程中需要处理大量的抗体-抗原复合物结构,确保数据的质量和一致性。此外,现有的方法在表位预测任务上的表现不佳,表明需要更复杂和全面的模型来解决这一问题。AsEP数据集的发布旨在解决这些挑战,通过提供一个大规模、多样化的数据集,促进更精确的抗体特异性表位预测方法的发展。
常用场景
经典使用场景
在抗体设计领域,AsEP数据集的经典应用场景主要集中在抗原表位预测任务上。该数据集通过提供大规模的抗体-抗原复合物结构数据,支持研究人员开发和测试新的表位预测方法。具体而言,AsEP数据集允许研究者利用深度学习和图神经网络技术,分析抗体与抗原之间的相互作用,从而精确预测抗原表面的表位区域。
解决学术问题
AsEP数据集解决了抗体设计中的一个关键学术问题,即抗原表位预测的准确性。由于抗体的高度可变性,传统的蛋白质结合位点预测方法在表位预测任务中表现不佳。AsEP数据集通过提供丰富的抗体-抗原复合物结构数据,为研究者提供了一个统一的评估平台,促进了新方法的开发和验证。这不仅提高了表位预测的准确性,还为理解抗体-抗原相互作用提供了新的视角。
实际应用
在实际应用中,AsEP数据集为抗体药物的研发提供了重要支持。通过精确预测抗原表位,研究人员可以更有效地设计和优化抗体药物,从而加速新药的开发过程。此外,AsEP数据集还可用于疫苗设计、免疫治疗和诊断试剂的开发,为多种生物医学应用提供了基础数据支持。
数据集最近研究
最新研究方向
在抗体设计领域,抗原表位预测是一个关键但具有挑战性的任务。AsEP数据集的引入为这一领域的研究提供了新的基准。最近的研究方向主要集中在利用深度学习和图神经网络来提高抗原表位预测的准确性。通过结合蛋白质语言模型和图神经网络,研究者们能够更好地捕捉抗体和抗原之间的复杂相互作用。此外,将任务重新定义为二分图链接预测,不仅提高了模型的性能,还增强了模型的可解释性。这些研究不仅推动了抗体设计的前沿,还为未来的方法设计提供了指导。
相关研究论文
  • 1
    AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction伦敦大学学院结构分子生物学系 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录