SAAINTDB
收藏Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/haneulpark/SAAINTDB
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是SAAINT-DB抗体重组数据库的精选处理版本,专为机器学习应用而转换为Hugging Face数据集兼容格式。数据集包含来自11,304个PDB结构的21,400个抗体条目,反映了截至2026年2月的可用结构。每个条目对应一个抗体链,使用PDB_ID_chain字段(PDB ID + 链ID)进行唯一标识。数据集按PDB级别划分为训练集(70%)、验证集(15%)和测试集(15%),并基于HL标签(重链/轻链可用性)进行分层以保证分布平衡。预处理步骤包括添加唯一标识列、链可用性标签列,补充缺失的mmCIF和FASTA文件等。数据集提供PDB结构文件、序列数据和丰富的元数据特征(包括突变信息、分类、分辨率、序列长度等),适用于抗体结构表征和抗体-抗原相互作用分析等机器学习任务。
创建时间:
2026-03-05
原始信息汇总
SAAINTDB 数据集概述
数据集基本信息
- 数据集名称:SAAINTDB
- 数据集简介:该数据集是原始 SAAINT-DB 论文中引入的抗体数据集的精选和处理版本,已转换为与 Hugging Face Datasets 兼容的结构化格式。
- 数据来源:基于 SAAINT-DB,数据源自蛋白质数据库(PDB)结构。
- 数据规模:包含 21,400 个抗体条目,源自 11,304 个 PDB 结构,反映了截至 2026 年 2 月的可用结构。
- 标识方式:每个条目对应一个抗体链,使用
PDB_ID_chain字段(PDB ID + 链 ID)进行唯一标识。 - 主要用途:适用于抗体结构数据的机器学习和模型评估,特别是涉及抗体链表征和抗体-抗原相互作用分析的任务。
- 许可证:cc-by-4.0
- 语言:en
- 标签:biology, antibody, protein-structure, mmcif, pdb, rosettacommons
数据集结构与划分
- 划分方式:在 PDB 级别按 70/15/15 的比例划分为训练集、验证集和测试集。
- 分层策略:基于 HL 标签(重链/轻链可用性)进行分层,以保持平衡分布。
- 防泄漏措施:所有源自同一 PDB ID 的条目均被分配到同一划分中。
- 划分详情:
- 训练集:15,033 行,包含 7,649 个唯一的 PDB_ID。
- 验证集:3,179 行,包含 1,639 个唯一的 PDB_ID。
- 测试集:3,188 行,包含 1,639 个唯一的 PDB_ID。
数据内容与特征
- 数据格式:数据集以 CSV 文件形式提供,并包含对应的 PDB 结构文件。
- 文件组织:
data/目录:包含train.csv、validation.csv、test.csv三个 CSV 文件。PDB/目录:包含按train/、validation/、test/目录组织的 PDB 结构文件。
- 核心特征列:数据集包含 46 个特征列,涵盖以下类别信息:
- 标识信息:
PDB_ID_chain、PDB_ID、Title。 - 结构信息:
Method、Resolution、R_free、R_work。 - 序列信息:
H_fas_seq、L_fas_seq、H_filled_pdb_seq、L_filled_pdb_seq及相关长度特征。 - 分类信息:
Classification、Ab_type、H_subgroup、L_subgroup。 - 链信息:
H_chain_ID、L_chain_ID、hl_label、Asym_ID_type。 - 物种与分子信息:
H_species、L_species、H_mol_name、L_mol_name。 - 抗原信息:
Ag_chain_ID(s)、Ag_type(s)、Ag_mol_name(s)、Ag_species。 - 相互作用信息:
Ab_ag_inf_res_num、CDR_inf_res_num、CDR_inf_res_ratio、HL_inf_res_num。 - 日期与引用:
Deposit_date、Release_date、PMID、DOI。 - 处理信息:
Mutation(s)、Model_index、split。 - 几何特征:
H_mean_radius、L_mean_radius。
- 标识信息:
数据处理流程
- 添加
PDB_ID_chain列以唯一标识每个抗体条目。 - 添加
hl_label列以指示链的可用性(HL、H_only、L_only),用于平衡数据集划分。 - 从 RCSB 蛋白质数据库(PDB)下载了 111 个缺失的 mmCIF 文件,并更新了数据集以反映截至 2026 年 2 月的可用结构。
- 生成并添加了与下载的 CIF 结构对应的 FASTA 文件。
- 将数据集划分为训练集、验证集和测试集(70/15/15)。
- 添加
split列以指示分配的划分(train、validation或test)。 - 处理后的数据集按上述文件结构进行组织。
- 原始数据集文件
saaintdb_20260226_all.tsv已转换为 CSV 格式(saaintdb_raw_data_20260226.csv)以便于处理。
使用方式
- 加载库:使用 Hugging Face
datasets库进行加载。 - 加载命令:
SAAINTDB = datasets.load_dataset(RosettaCommons/SAAINTDB) - 加载结果:返回一个包含
train、validation、test三个键的DatasetDict对象,每个都是一个Dataset,具有上述 46 个特征列。 - 数据访问:支持直接列访问、转换为
pandas.DataFrame或parquet格式。
注意事项
- 某些 PDB 包含多个抗体,因此 PDB 文件数量少于数据条目数量。
- 在 Google Sheets 或 Microsoft Excel 中打开 CSV 文件时,
PDB_ID列可能会自动转换为科学计数法。
引用信息
- 论文标题:SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design
- 期刊:Acta Pharmacologica Sinica
- 卷期:46, 12
- 页码:3365–3375
- 出版年份:2025
- 月份:6月
- DOI:https://doi.org/10.1038/s41401-025-01608-5
- 引用 BibTeX:
@article{Huang2025, title = {SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design}, volume = {46}, ISSN = {1745-7254}, url = {http://dx.doi.org/10.1038/s41401-025-01608-5}, DOI = {10.1038/s41401-025-01608-5}, number = {12}, journal = {Acta Pharmacologica Sinica}, publisher = {Springer Science and Business Media LLC}, author = {Huang, Xiaoqiang and Zhou, Jun and Chen, Shuang and Xia, Xiaofeng and Chen, Y. Eugene and Xu, Jie}, year = {2025}, month = jun, pages = {3365–3375} }
搜集汇总
数据集介绍
构建方式
在结构生物学领域,抗体数据库的构建对于理解免疫识别机制至关重要。SAAINTDB数据集源自SAAINT-DB论文,经过系统化处理,转化为适用于机器学习应用的结构化格式。其构建过程包括从11,304个PDB结构中提取21,400个抗体条目,并添加唯一标识符PDB_ID_chain以区分同一结构中的不同抗体链。为确保数据完整性,缺失的mmCIF文件从RCSB蛋白质数据库下载并补充,同时生成对应的FASTA序列文件。数据集按照PDB级别进行分层划分,依据重链和轻链的可用性标签实现平衡分配,有效避免了数据泄露问题。
特点
该数据集在抗体结构研究领域展现出显著特色,其核心在于整合了多维度的生物信息。数据集不仅包含丰富的结构文件,还提供了详细的元数据,如抗体类型、亚组分类、物种来源以及抗原相互作用信息。每个条目均标注了重链和轻链的序列长度、平均半径等结构参数,并特别标注了互补决定区(CDR)的残基信息,为抗体-抗原相互作用分析提供了关键数据支撑。数据集的划分策略确保了训练、验证和测试集在链类型分布上的均衡性,增强了机器学习模型评估的可靠性。
使用方法
针对机器学习在抗体工程中的应用需求,SAAINTDB数据集提供了便捷的访问方式。用户可通过Hugging Face Datasets库直接加载数据集,获得包含训练、验证和测试三个子集的DatasetDict对象。数据集以列导向格式组织,支持直接访问特定字段,并可轻松转换为pandas DataFrame或Parquet格式以适配不同分析流程。结合提供的PDB结构文件和FASTA序列,研究者能够开展从序列分析到结构预测的综合研究,特别适用于抗体表征和相互作用建模等任务。使用时需注意避免电子表格软件对PDB_ID列的科学记数法转换,以确保数据准确性。
背景与挑战
背景概述
抗体作为生物医学领域的关键分子,其结构解析与功能设计一直是计算生物学的前沿课题。SAAINTDB数据集由黄晓强等研究人员于2025年构建,并发表于《中国药理学报》,旨在为抗体建模与设计提供一个全面的结构数据库。该数据集整合了来自11,304个蛋白质数据库结构的21,400个抗体条目,涵盖了丰富的结构、序列及互作信息,显著推动了抗体工程与人工智能交叉领域的发展,为机器学习模型训练提供了标准化、高质量的结构数据基础。
当前挑战
在抗体结构预测与设计领域,核心挑战在于准确建模抗体的高变区构象及其与抗原的特异性结合。SAAINTDB数据集致力于解决这一复杂问题,但其构建过程亦面临多重困难:原始数据中部分PDB结构文件缺失,需从RCSB数据库补充下载并生成对应FASTA序列;为确保数据划分的平衡性与避免泄露,需依据重链与轻链的完整性进行分层抽样,并将同一PDB来源的所有条目归入同一分割,这增加了数据预处理的复杂度。
常用场景
经典使用场景
在抗体工程与计算生物学领域,SAAINTDB数据集为机器学习模型提供了丰富的结构数据基础。该数据集整合了来自11,304个PDB结构的21,400个抗体条目,包含完整的序列、结构及元数据信息。其经典应用场景集中于抗体结构预测与设计,研究人员可利用其训练深度学习模型,以准确预测抗体的三维构象、识别互补决定区(CDR)的构象变化,并优化抗体-抗原相互作用的亲和力与特异性。数据集的分层划分策略确保了模型评估的严谨性,为抗体理性设计提供了可靠的基准平台。
实际应用
在生物医药研发的实际场景中,SAAINTDB数据集为新药发现提供了重要支持。制药企业可利用该数据集训练AI模型,快速筛选具有潜在治疗效能的抗体候选分子,缩短抗体药物的早期开发周期。在疫苗设计领域,数据集有助于解析抗体与病毒抗原的相互作用模式,指导广谱中和抗体的理性设计。此外,该资源还可用于开发诊断试剂中的高特异性抗体,提升检测的灵敏度与准确性,推动精准医疗与个性化治疗的发展。
衍生相关工作
基于SAAINTDB数据集,一系列经典研究工作得以展开。例如,研究人员开发了端到端的抗体结构预测神经网络,利用数据集的序列与结构对齐信息实现了高精度建模。另有工作聚焦于抗体-抗原对接的强化学习框架,通过数据集中的相互作用残基数据优化结合自由能计算。此外,该数据集还支撑了抗体语言模型的预训练,使其能够生成具有特定结合特性的新型抗体序列。这些衍生工作共同推动了抗体计算设计领域的算法创新与工具发展。
以上内容由遇见数据集搜集并总结生成



