AsEP|抗体设计数据集|生物信息学数据集
收藏AsEP Dataset 概述
数据集简介
AsEP(Antibody-specific Epitope Prediction)数据集用于抗体特异性表位预测。该数据集用于论文《AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction》,提交至 NeurIPS 2024 数据集和基准测试。
数据集下载
原始数据集可从 Zenodo 下载。此外,还提供了命令行脚本下载数据集: shell download-asep /path/to/directory AsEP
数据集接口
数据集提供了 Python 接口 asep
,包含以下功能:
- 数据集接口
- 加载预构建的抗体-抗原复合物图
- 构建神经网络模型,使用蛋白质语言模型(PLM)进行节点嵌入和图神经网络(GNN)进行图表示
- 训练和评估脚本
安装
支持通过 devcontainer
和 conda
环境进行安装。
数据加载
抗体-抗原复合物以二维图对形式提供,包含两种节点特征:
- 独热编码
- 使用 AntiBERTy 和 ESM2 预计算的嵌入
示例代码: python from asep.data.asepv1_dataset import AsEPv1Dataset
asepv1_dataset = AsEPv1Dataset(root=./data, name=asep, feat_type=one_hot) graph_pair = asepv1_dataset[0] node_labels_b = graph_pair.y_b node_labels_g = graph_pair.y_g edge_index_bg = graph_pair.edge_index_bg
数据分割
支持两种分割方法:epitope_ratio
和 epitope_group
。
示例代码: python split_idx = asepv1_dataset.get_idx_split(split_method="epitope_ratio") train_set = asepv1_dataset[split_idx[train]] valid_set = asepv1_dataset[split_idx[valid]] test_set = asepv1_dataset[split_idx[test]]
评估
提供评估器用于评估模型性能: python from asep.data.asepv1_dataset import AsEPv1Evaluator
evaluator = AsEPv1Evaluator() result_dict = evaluator.eval({y_pred: y_pred, y_true: y_true})
基准性能
在 epitope ratio
和 epitope group
两种设置下,多个深度学习模型的性能如下:
Epitope Ratio
Algorithm | MCC | Precision | Recall | AUCROC | F1 |
---|---|---|---|---|---|
WALLE | 0.210 (0.020) | 0.235 (0.018) | 0.422 (0.028) | 0.635 (0.013) | 0.258 (0.018) |
EpiPred | 0.029 (0.018) | 0.122 (0.014) | 0.180 (0.019) | — | 0.142 (0.016) |
ESMFold | 0.028 (0.010) | 0.137 (0.019) | 0.043 (0.006) | 0.060 (0.008) | — |
ESMBind | 0.016 (0.008) | 0.106 (0.012) | 0.121 (0.014) | 0.506 (0.004) | 0.090 (0.009) |
MaSIF-site | 0.037 (0.012) | 0.125 (0.015) | 0.183 (0.017) | — | 0.114 (0.011) |
Epitope Group
Algorithm | MCC | Precision | Recall | AUCROC | F1 |
---|---|---|---|---|---|
WALLE | 0.077 (0.015) | 0.143 (0.017) | 0.266 (0.025) | 0.544 (0.010) | 0.145 (0.014) |
EpiPred | -0.006 (0.015) | 0.089 (0.011) | 0.158 (0.019) | — | 0.112 (0.014) |
ESMFold | 0.018 (0.010) | 0.113 (0.019) | 0.034 (0.007) | — | 0.046 (0.009) |
ESMBind | 0.002 (0.008) | 0.082 (0.011) | 0.076 (0.011) | 0.500 (0.004) | 0.064 (0.008) |
MaSIF-site | 0.046 (0.014) | 0.164 (0.020) | 0.174 (0.015) | — | 0.128 (0.012) |

- 1AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction伦敦大学学院结构分子生物学系 · 2024年
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录