five

SAAINTDB

收藏
Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/haneulpark/SAAINTDB
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是SAAINT-DB抗体重组数据库的精选处理版本,专为机器学习应用而转换为Hugging Face数据集兼容格式。数据集包含来自11,304个PDB结构的21,400个抗体条目,反映了截至2026年2月的可用结构。每个条目对应一个抗体链,使用PDB_ID_chain字段(PDB ID + 链ID)进行唯一标识。数据集按PDB级别划分为训练集(70%)、验证集(15%)和测试集(15%),并基于HL标签(重链/轻链可用性)进行分层以保证分布平衡。预处理步骤包括添加唯一标识列、链可用性标签列,补充缺失的mmCIF和FASTA文件等。数据集提供PDB结构文件、序列数据和丰富的元数据特征(包括突变信息、分类、分辨率、序列长度等),适用于抗体结构表征和抗体-抗原相互作用分析等机器学习任务。
创建时间:
2026-03-05
原始信息汇总

SAAINTDB 数据集概述

数据集基本信息

  • 数据集名称:SAAINTDB
  • 数据集简介:该数据集是原始 SAAINT-DB 论文中引入的抗体数据集的精选和处理版本,已转换为与 Hugging Face Datasets 兼容的结构化格式。
  • 数据来源:基于 SAAINT-DB,数据源自蛋白质数据库(PDB)结构。
  • 数据规模:包含 21,400 个抗体条目,源自 11,304 个 PDB 结构,反映了截至 2026 年 2 月的可用结构。
  • 标识方式:每个条目对应一个抗体链,使用 PDB_ID_chain 字段(PDB ID + 链 ID)进行唯一标识。
  • 主要用途:适用于抗体结构数据的机器学习和模型评估,特别是涉及抗体链表征和抗体-抗原相互作用分析的任务。
  • 许可证:cc-by-4.0
  • 语言:en
  • 标签:biology, antibody, protein-structure, mmcif, pdb, rosettacommons

数据集结构与划分

  • 划分方式:在 PDB 级别按 70/15/15 的比例划分为训练集、验证集和测试集。
  • 分层策略:基于 HL 标签(重链/轻链可用性)进行分层,以保持平衡分布。
  • 防泄漏措施:所有源自同一 PDB ID 的条目均被分配到同一划分中。
  • 划分详情
    • 训练集:15,033 行,包含 7,649 个唯一的 PDB_ID。
    • 验证集:3,179 行,包含 1,639 个唯一的 PDB_ID。
    • 测试集:3,188 行,包含 1,639 个唯一的 PDB_ID。

数据内容与特征

  • 数据格式:数据集以 CSV 文件形式提供,并包含对应的 PDB 结构文件。
  • 文件组织
    • data/ 目录:包含 train.csvvalidation.csvtest.csv 三个 CSV 文件。
    • PDB/ 目录:包含按 train/validation/test/ 目录组织的 PDB 结构文件。
  • 核心特征列:数据集包含 46 个特征列,涵盖以下类别信息:
    • 标识信息PDB_ID_chainPDB_IDTitle
    • 结构信息MethodResolutionR_freeR_work
    • 序列信息H_fas_seqL_fas_seqH_filled_pdb_seqL_filled_pdb_seq 及相关长度特征。
    • 分类信息ClassificationAb_typeH_subgroupL_subgroup
    • 链信息H_chain_IDL_chain_IDhl_labelAsym_ID_type
    • 物种与分子信息H_speciesL_speciesH_mol_nameL_mol_name
    • 抗原信息Ag_chain_ID(s)Ag_type(s)Ag_mol_name(s)Ag_species
    • 相互作用信息Ab_ag_inf_res_numCDR_inf_res_numCDR_inf_res_ratioHL_inf_res_num
    • 日期与引用Deposit_dateRelease_datePMIDDOI
    • 处理信息Mutation(s)Model_indexsplit
    • 几何特征H_mean_radiusL_mean_radius

数据处理流程

  1. 添加 PDB_ID_chain 列以唯一标识每个抗体条目。
  2. 添加 hl_label 列以指示链的可用性(HLH_onlyL_only),用于平衡数据集划分。
  3. 从 RCSB 蛋白质数据库(PDB)下载了 111 个缺失的 mmCIF 文件,并更新了数据集以反映截至 2026 年 2 月的可用结构。
  4. 生成并添加了与下载的 CIF 结构对应的 FASTA 文件。
  5. 将数据集划分为训练集、验证集和测试集(70/15/15)。
  6. 添加 split 列以指示分配的划分(trainvalidationtest)。
  7. 处理后的数据集按上述文件结构进行组织。
  8. 原始数据集文件 saaintdb_20260226_all.tsv 已转换为 CSV 格式(saaintdb_raw_data_20260226.csv)以便于处理。

使用方式

  • 加载库:使用 Hugging Face datasets 库进行加载。
  • 加载命令SAAINTDB = datasets.load_dataset(RosettaCommons/SAAINTDB)
  • 加载结果:返回一个包含 trainvalidationtest 三个键的 DatasetDict 对象,每个都是一个 Dataset,具有上述 46 个特征列。
  • 数据访问:支持直接列访问、转换为 pandas.DataFrameparquet 格式。

注意事项

  • 某些 PDB 包含多个抗体,因此 PDB 文件数量少于数据条目数量。
  • 在 Google Sheets 或 Microsoft Excel 中打开 CSV 文件时,PDB_ID 列可能会自动转换为科学计数法。

引用信息

  • 论文标题:SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design
  • 期刊:Acta Pharmacologica Sinica
  • 卷期:46, 12
  • 页码:3365–3375
  • 出版年份:2025
  • 月份:6月
  • DOI:https://doi.org/10.1038/s41401-025-01608-5
  • 引用 BibTeX

@article{Huang2025, title = {SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design}, volume = {46}, ISSN = {1745-7254}, url = {http://dx.doi.org/10.1038/s41401-025-01608-5}, DOI = {10.1038/s41401-025-01608-5}, number = {12}, journal = {Acta Pharmacologica Sinica}, publisher = {Springer Science and Business Media LLC}, author = {Huang, Xiaoqiang and Zhou, Jun and Chen, Shuang and Xia, Xiaofeng and Chen, Y. Eugene and Xu, Jie}, year = {2025}, month = jun, pages = {3365–3375} }

搜集汇总
数据集介绍
构建方式
在结构生物学领域,抗体数据库的构建对于理解免疫识别机制至关重要。SAAINTDB数据集源自SAAINT-DB论文,经过系统化处理,转化为适用于机器学习应用的结构化格式。其构建过程包括从11,304个PDB结构中提取21,400个抗体条目,并添加唯一标识符PDB_ID_chain以区分同一结构中的不同抗体链。为确保数据完整性,缺失的mmCIF文件从RCSB蛋白质数据库下载并补充,同时生成对应的FASTA序列文件。数据集按照PDB级别进行分层划分,依据重链和轻链的可用性标签实现平衡分配,有效避免了数据泄露问题。
特点
该数据集在抗体结构研究领域展现出显著特色,其核心在于整合了多维度的生物信息。数据集不仅包含丰富的结构文件,还提供了详细的元数据,如抗体类型、亚组分类、物种来源以及抗原相互作用信息。每个条目均标注了重链和轻链的序列长度、平均半径等结构参数,并特别标注了互补决定区(CDR)的残基信息,为抗体-抗原相互作用分析提供了关键数据支撑。数据集的划分策略确保了训练、验证和测试集在链类型分布上的均衡性,增强了机器学习模型评估的可靠性。
使用方法
针对机器学习在抗体工程中的应用需求,SAAINTDB数据集提供了便捷的访问方式。用户可通过Hugging Face Datasets库直接加载数据集,获得包含训练、验证和测试三个子集的DatasetDict对象。数据集以列导向格式组织,支持直接访问特定字段,并可轻松转换为pandas DataFrame或Parquet格式以适配不同分析流程。结合提供的PDB结构文件和FASTA序列,研究者能够开展从序列分析到结构预测的综合研究,特别适用于抗体表征和相互作用建模等任务。使用时需注意避免电子表格软件对PDB_ID列的科学记数法转换,以确保数据准确性。
背景与挑战
背景概述
抗体作为生物医学领域的关键分子,其结构解析与功能设计一直是计算生物学的前沿课题。SAAINTDB数据集由黄晓强等研究人员于2025年构建,并发表于《中国药理学报》,旨在为抗体建模与设计提供一个全面的结构数据库。该数据集整合了来自11,304个蛋白质数据库结构的21,400个抗体条目,涵盖了丰富的结构、序列及互作信息,显著推动了抗体工程与人工智能交叉领域的发展,为机器学习模型训练提供了标准化、高质量的结构数据基础。
当前挑战
在抗体结构预测与设计领域,核心挑战在于准确建模抗体的高变区构象及其与抗原的特异性结合。SAAINTDB数据集致力于解决这一复杂问题,但其构建过程亦面临多重困难:原始数据中部分PDB结构文件缺失,需从RCSB数据库补充下载并生成对应FASTA序列;为确保数据划分的平衡性与避免泄露,需依据重链与轻链的完整性进行分层抽样,并将同一PDB来源的所有条目归入同一分割,这增加了数据预处理的复杂度。
常用场景
经典使用场景
在抗体工程与计算生物学领域,SAAINTDB数据集为机器学习模型提供了丰富的结构数据基础。该数据集整合了来自11,304个PDB结构的21,400个抗体条目,包含完整的序列、结构及元数据信息。其经典应用场景集中于抗体结构预测与设计,研究人员可利用其训练深度学习模型,以准确预测抗体的三维构象、识别互补决定区(CDR)的构象变化,并优化抗体-抗原相互作用的亲和力与特异性。数据集的分层划分策略确保了模型评估的严谨性,为抗体理性设计提供了可靠的基准平台。
实际应用
在生物医药研发的实际场景中,SAAINTDB数据集为新药发现提供了重要支持。制药企业可利用该数据集训练AI模型,快速筛选具有潜在治疗效能的抗体候选分子,缩短抗体药物的早期开发周期。在疫苗设计领域,数据集有助于解析抗体与病毒抗原的相互作用模式,指导广谱中和抗体的理性设计。此外,该资源还可用于开发诊断试剂中的高特异性抗体,提升检测的灵敏度与准确性,推动精准医疗与个性化治疗的发展。
衍生相关工作
基于SAAINTDB数据集,一系列经典研究工作得以展开。例如,研究人员开发了端到端的抗体结构预测神经网络,利用数据集的序列与结构对齐信息实现了高精度建模。另有工作聚焦于抗体-抗原对接的强化学习框架,通过数据集中的相互作用残基数据优化结合自由能计算。此外,该数据集还支撑了抗体语言模型的预训练,使其能够生成具有特定结合特性的新型抗体序列。这些衍生工作共同推动了抗体计算设计领域的算法创新与工具发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作