five

Paratope

收藏
Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/ZYMScott/Paratope
下载链接
链接失效反馈
官方服务:
资源简介:
纳米抗体抗原结合部位预测数据集,用于预测纳米抗体序列中哪些氨基酸直接与抗原结合。该数据集基于已解决的3D结构的纳米抗体-抗原复合物,包含训练集、验证集和测试集,旨在帮助开发预测模型、设计和工程纳米抗体,以及理解结合机制。
创建时间:
2025-04-24
原始信息汇总

Nanobody Paratope Prediction Dataset 数据集概述

数据集简介

  • 用途:预测纳米抗体序列中直接与抗原结合的氨基酸(称为"paratopes")
  • 重要性:了解抗体与靶标的相互作用,设计更好的治疗性纳米抗体

数据来源

  • 基于纳米抗体-抗原复合物的已解析3D结构
  • 结构来源:蛋白质数据银行(PDB)和科学文献
  • 通过分析纳米抗体与抗原的接触界面确定paratope残基

数据结构

  • 划分:训练集、验证集和测试集

文件格式

  • CSV文件包含列:
    • seq_nanobody:纳米抗体氨基酸序列
    • seq_antigen:抗原氨基酸序列
    • paratope:二进制列表,指示每个残基是否为paratope(1表示是,0表示否)
  • antigen_embeddings.pt:通过ESM-2(650M)预计算的抗原序列嵌入

用途与限制

用途

  • 开发预测纳米抗体结合位点的模型
  • 辅助设计和改造纳米抗体
  • 理解纳米抗体-抗原结合机制

限制

  • 实验解析的纳米抗体-抗原结构数量有限
  • Paratope定义可能因实验条件而异
  • 不同抗原类型可能导致不同的paratope模式

评估指标

  • 准确率(Accuracy)
  • F1分数(F1 Score)
  • 精确率(Precision)
  • 召回率(Recall)
  • AUROC(接收者操作特征曲线下面积)
  • AUPRC(精确率-召回率曲线下面积)

许可信息

  • 许可证:CC-BY-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在抗体工程领域,Paratope数据集的构建采用了结构生物学领域的精确方法。研究人员从蛋白质数据库(PDB)和科学文献中收集了已解析的纳米抗体-抗原复合物三维结构数据,通过分析其接触界面,准确识别了参与抗原结合的氨基酸残基。这种基于实验结构的构建方式确保了数据的高度可靠性,为研究抗体-抗原相互作用提供了坚实的分子基础。
特点
该数据集在抗体设计领域展现出独特的价值特征。其核心优势在于提供了纳米抗体序列与对应抗原序列的精确配对,并通过二进制标注清晰地标识了每个残基是否属于互补位。特别值得注意的是,数据集还包含了通过ESM-2模型预计算的抗原序列嵌入表示,这为深度学习模型的训练提供了重要的特征工程支持。数据的分割设置也经过精心设计,包含训练集、验证集和测试集,便于模型的开发和评估。
使用方法
在免疫信息学研究中,该数据集为开发预测模型提供了标准化的实验平台。使用者可以通过加载CSV文件获取纳米抗体序列、抗原序列及互补位标注信息,而预计算的抗原嵌入则存储为PyTorch张量格式。研究人员可基于多种评估指标(包括准确率、F1值、AUROC等)全面评估模型性能。该数据集特别适用于开发深度学习模型来预测纳米抗体的结合位点,并为抗体工程提供理论指导。
背景与挑战
背景概述
纳米抗体作为抗体工程领域的重要突破,其与抗原的特异性结合机制一直是结构免疫学研究的核心问题。Paratope数据集由国际研究团队基于蛋白质数据库(PDB)的晶体结构数据构建,旨在解决纳米抗体互补决定区(CDR)之外的抗原结合位点预测难题。该数据集通过系统分析已解析的纳米抗体-抗原复合物三维结构,精确标注了参与分子识别的关键氨基酸残基,为理解纳米抗体独特的结合特性及理性设计提供了重要数据支持。
当前挑战
在抗原结合位点预测领域,纳米抗体因其非典型结合机制导致传统表位预测方法失效,构成主要技术挑战。数据集构建过程中面临三大难题:可用的高分辨率晶体结构样本稀缺,制约了数据规模;接触界面残基的判定标准受结晶条件影响存在主观偏差;不同抗原类型诱导的构象变化使结合模式呈现高度异质性。这些因素对机器学习模型的泛化能力提出了严峻考验,要求算法必须克服小样本学习与结构多样性带来的双重困难。
常用场景
经典使用场景
在抗体工程领域,Paratope数据集为研究人员提供了预测纳米抗体与抗原结合位点的关键工具。通过分析纳米抗体序列中的氨基酸残基,该数据集能够准确识别参与抗原结合的位点,为抗体设计和优化奠定基础。这一经典应用场景极大地推动了抗体药物研发的进程,使得研究人员能够更高效地筛选和改造具有特定结合特性的纳米抗体。
实际应用
在实际应用中,Paratope数据集已被广泛用于治疗性抗体的开发和优化。制药公司利用该数据集训练的模型,能够快速筛选出具有潜在治疗价值的纳米抗体候选分子。此外,在诊断试剂开发领域,该数据集帮助研究人员设计出高特异性的检测抗体,显著提升了诊断试剂的性能和可靠性。
衍生相关工作
围绕Paratope数据集,学术界已衍生出多项重要研究工作。其中包括基于深度学习的纳米抗体结合位点预测算法开发,以及抗体-抗原结合自由能计算模型的优化。这些工作不仅扩展了数据集的应用范围,还推动了计算生物学与抗体工程的交叉融合,为相关领域的发展注入了新的活力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作