five

SAbDab

收藏
Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/ProteinMPNN/SAbDab
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自结构抗体数据库(SAbDab)的精选数据,截至2026年3月4日。SAbDab是一个包含抗体结构的数据库,涵盖实验细节、抗体命名法、亲和力数据和序列注释。该数据集经过筛选,仅包含高质量、抗原结合且非冗余的抗体结构。非冗余结构直接从SAbDab数据库获取,查询参数包括最大序列同一性90%,配对的VH/VL结构和未配对的结构,以及结合和未结合的复合物。数据集适用于抗体-抗原相互作用的筛选、抗体结构特征的查询等任务。数据集采用CC-BY 4.0许可,包含20,701个样本,每个样本包含多个特征字段,如PDB代码、链信息、抗原详情、实验方法、亲和力数据等。
创建时间:
2026-03-04
原始信息汇总

数据集概述:The Curated SAbDab

基本信息

  • 数据集名称:The Curated SAbDab
  • 数据集标识:ProteinMPNN/SAbDab
  • 语言:英语
  • 许可证:CC-BY 4.0
  • 标签:生物学、化学
  • 数据规模:10K < n < 100K

数据集描述

该数据集包含截至2026年3月4日从结构抗体数据库(SAbDab)中精选的数据。SAbDab是一个抗体结构数据库,包含实验细节、抗体命名法、亲和力数据和序列注释。此数据经过筛选,仅包含高质量、抗原结合且非冗余的抗体结构。非冗余结构是直接从SAbDab数据库中获取的,查询参数为:最大序列同一性90%,包括配对的VH/VL结构和未配对的结构,以及结合和未结合的复合物。

数据集用途

  • 抗体-抗原相互作用的筛选
  • 查询抗体的结构特征

数据来源与引用

  • 来源论文:Dunbar, J., Krawczyk, K. et al (2014). SAbDab: the structural antibody database. Nucleic Acids Research, 42(D1), D1140-D1146.
  • DOI:https://doi.org/10.1093/nar/gkt1043

致谢

感谢SAbDab团队、RosettaCommons以及以下机构:加州大学洛杉矶分校、马里兰大学、俄勒冈大学、密歇根大学、宾夕法尼亚大学和威斯塔研究所。

数据集作者

Miranda Simpson (miranda13nicoles@gmail.com), Becca Lee (beccalee5@g.ucla.edu), Nathaniel Felbinger (nfelbing@umd.edu), Pratyush Dhal (pdhal@umich.edu), Colby Agostino (colby.agostino@pennmedicine.upenn.edu)

搜集汇总
数据集介绍
构建方式
在结构生物学与计算免疫学领域,SAbDab数据集通过精心筛选与整合公开的抗体结构数据构建而成。其核心流程源自结构抗体数据库,采用严格的质控标准,仅纳入高质量、抗原结合且非冗余的抗体结构。非冗余集合的生成基于序列同一性不超过90%的阈值,同时涵盖配对的VH/VL结构、未配对结构以及结合与未结合的复合体,确保了数据的多样性与代表性。
特点
该数据集以其全面而精细的注解体系著称,不仅包含抗体的实验细节、命名信息和亲和力数据,还提供了详尽的序列与结构注释。其独特之处在于对互补决定区环构象、可变域取向等结构属性的系统性标注,为深入探究抗体-抗原相互作用的分子机制提供了多维度的数据支撑。数据集遵循CC-BY 4.0许可协议,保障了其在学术研究中的可及性与重用性。
使用方法
用户可通过HuggingFace Datasets库便捷地加载该数据集,支持以列导向的格式直接访问,或转换为pandas.DataFrame及parquet格式进行后续分析。该数据集适用于抗体-抗原相互作用的筛选、抗体结构特征查询等计算任务,为机器学习模型在抗体工程与药物设计领域的训练与评估提供了标准化的数据资源。
背景与挑战
背景概述
抗体结构数据库(SAbDab)由牛津大学等研究机构于2013年创建,旨在系统整合公开的抗体三维结构数据,并统一标注实验细节、基因信息及抗原结合亲和力等关键属性。该数据库的建立响应了结构免疫学领域对标准化、可访问抗体资源的需求,为抗体工程、药物设计及免疫机制研究提供了重要基础。其影响力体现在推动计算抗体设计方法的发展,成为机器学习模型训练与验证的核心数据源,促进了抗体-抗原相互作用预测精度的提升。
当前挑战
该数据集致力于解决抗体-抗原复合物结构预测与功能分析的挑战,其核心在于建模抗体可变区的高变环构象多样性及结合界面的复杂相互作用。构建过程中的挑战包括从异构实验数据中提取高质量、非冗余的结构信息,确保重链与轻链配对的准确性,以及整合不同来源的亲和力数据以实现标准化标注。此外,维持数据的时效性与覆盖度,平衡结构数量与质量,亦是持续更新的关键难题。
常用场景
经典使用场景
在计算免疫学与结构生物信息学领域,SAbDab数据集作为抗体结构数据的权威资源,其经典使用场景集中于抗体-抗原相互作用的系统性筛选与分析。研究者借助该数据集的高质量、非冗余抗体结构信息,能够深入探究抗体互补决定区(CDR)的构象多样性、可变域的空间取向,以及抗体与抗原结合界面的结构特征。这些分析为理解抗体识别机制、评估结合亲和力提供了坚实的结构基础,广泛应用于抗体工程与理性设计的前期研究。
实际应用
在实际应用层面,SAbDab数据集已成为抗体药物发现与开发流程中的关键工具。生物技术公司与制药企业利用该数据集训练机器学习模型,以预测新型抗体的结合特异性、优化抗体的人源化程度并降低免疫原性风险。此外,数据集中的抗原结合信息辅助了疫苗设计中的表位定位,而结构多样性数据则支撑了抗体库的构建与筛选,加速了治疗性抗体候选物的临床前评估进程。
衍生相关工作
基于SAbDab数据集,已衍生出一系列经典的计算方法与工具。例如,抗体结构预测模型如ABodyBuilder和DeepAb利用其进行训练与验证;抗体-抗原对接算法如SnugDock和ZDock常以该数据集作为基准测试集;此外,抗体亲和力成熟与特异性设计的机器学习研究,如使用图神经网络或Transformer架构的工作,也普遍依赖SAbDab提供的高质量结构-功能关联数据,从而推动了智能抗体设计领域的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作