SAAINTDB

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/haneulpark/SAAINTDB

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是SAAINT-DB抗体重组数据库的精选处理版本，专为机器学习应用而转换为Hugging Face数据集兼容格式。数据集包含来自11,304个PDB结构的21,400个抗体条目，反映了截至2026年2月的可用结构。每个条目对应一个抗体链，使用PDB_ID_chain字段（PDB ID + 链ID）进行唯一标识。数据集按PDB级别划分为训练集（70%）、验证集（15%）和测试集（15%），并基于HL标签（重链/轻链可用性）进行分层以保证分布平衡。预处理步骤包括添加唯一标识列、链可用性标签列，补充缺失的mmCIF和FASTA文件等。数据集提供PDB结构文件、序列数据和丰富的元数据特征（包括突变信息、分类、分辨率、序列长度等），适用于抗体结构表征和抗体-抗原相互作用分析等机器学习任务。

创建时间：

2026-03-05

原始信息汇总

SAAINTDB 数据集概述

数据集基本信息

数据集名称：SAAINTDB
数据集简介：该数据集是原始 SAAINT-DB 论文中引入的抗体数据集的精选和处理版本，已转换为与 Hugging Face Datasets 兼容的结构化格式。
数据来源：基于 SAAINT-DB，数据源自蛋白质数据库（PDB）结构。
数据规模：包含 21,400 个抗体条目，源自 11,304 个 PDB 结构，反映了截至 2026 年 2 月的可用结构。
标识方式：每个条目对应一个抗体链，使用 PDB_ID_chain 字段（PDB ID + 链 ID）进行唯一标识。
主要用途：适用于抗体结构数据的机器学习和模型评估，特别是涉及抗体链表征和抗体-抗原相互作用分析的任务。
许可证：cc-by-4.0
语言：en
标签：biology, antibody, protein-structure, mmcif, pdb, rosettacommons

数据集结构与划分

划分方式：在 PDB 级别按 70/15/15 的比例划分为训练集、验证集和测试集。
分层策略：基于 HL 标签（重链/轻链可用性）进行分层，以保持平衡分布。
防泄漏措施：所有源自同一 PDB ID 的条目均被分配到同一划分中。
划分详情：
- 训练集：15,033 行，包含 7,649 个唯一的 PDB_ID。
- 验证集：3,179 行，包含 1,639 个唯一的 PDB_ID。
- 测试集：3,188 行，包含 1,639 个唯一的 PDB_ID。

数据内容与特征

数据格式：数据集以 CSV 文件形式提供，并包含对应的 PDB 结构文件。
文件组织：
- data/ 目录：包含 train.csv、validation.csv、test.csv 三个 CSV 文件。
- PDB/ 目录：包含按 train/、validation/、test/ 目录组织的 PDB 结构文件。
核心特征列：数据集包含 46 个特征列，涵盖以下类别信息：
- 标识信息：PDB_ID_chain、PDB_ID、Title。
- 结构信息：Method、Resolution、R_free、R_work。
- 序列信息：H_fas_seq、L_fas_seq、H_filled_pdb_seq、L_filled_pdb_seq 及相关长度特征。
- 分类信息：Classification、Ab_type、H_subgroup、L_subgroup。
- 链信息：H_chain_ID、L_chain_ID、hl_label、Asym_ID_type。
- 物种与分子信息：H_species、L_species、H_mol_name、L_mol_name。
- 抗原信息：Ag_chain_ID(s)、Ag_type(s)、Ag_mol_name(s)、Ag_species。
- 相互作用信息：Ab_ag_inf_res_num、CDR_inf_res_num、CDR_inf_res_ratio、HL_inf_res_num。
- 日期与引用：Deposit_date、Release_date、PMID、DOI。
- 处理信息：Mutation(s)、Model_index、split。
- 几何特征：H_mean_radius、L_mean_radius。

数据处理流程

添加 PDB_ID_chain 列以唯一标识每个抗体条目。
添加 hl_label 列以指示链的可用性（HL、H_only、L_only），用于平衡数据集划分。
从 RCSB 蛋白质数据库（PDB）下载了 111 个缺失的 mmCIF 文件，并更新了数据集以反映截至 2026 年 2 月的可用结构。
生成并添加了与下载的 CIF 结构对应的 FASTA 文件。
将数据集划分为训练集、验证集和测试集（70/15/15）。
添加 split 列以指示分配的划分（train、validation 或 test）。
处理后的数据集按上述文件结构进行组织。
原始数据集文件 saaintdb_20260226_all.tsv 已转换为 CSV 格式（saaintdb_raw_data_20260226.csv）以便于处理。

使用方式

加载库：使用 Hugging Face datasets 库进行加载。
加载命令：SAAINTDB = datasets.load_dataset(RosettaCommons/SAAINTDB)
加载结果：返回一个包含 train、validation、test 三个键的 DatasetDict 对象，每个都是一个 Dataset，具有上述 46 个特征列。
数据访问：支持直接列访问、转换为 pandas.DataFrame 或 parquet 格式。

注意事项

某些 PDB 包含多个抗体，因此 PDB 文件数量少于数据条目数量。
在 Google Sheets 或 Microsoft Excel 中打开 CSV 文件时，PDB_ID 列可能会自动转换为科学计数法。

引用信息

论文标题：SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design
期刊：Acta Pharmacologica Sinica
卷期：46, 12
页码：3365–3375
出版年份：2025
月份：6月
DOI：https://doi.org/10.1038/s41401-025-01608-5
引用 BibTeX：

@article{Huang2025, title = {SAAINT-DB: a comprehensive structural antibody database for antibody modeling and design}, volume = {46}, ISSN = {1745-7254}, url = {http://dx.doi.org/10.1038/s41401-025-01608-5}, DOI = {10.1038/s41401-025-01608-5}, number = {12}, journal = {Acta Pharmacologica Sinica}, publisher = {Springer Science and Business Media LLC}, author = {Huang, Xiaoqiang and Zhou, Jun and Chen, Shuang and Xia, Xiaofeng and Chen, Y. Eugene and Xu, Jie}, year = {2025}, month = jun, pages = {3365–3375} }

搜集汇总

数据集介绍

构建方式

在结构生物学领域，抗体数据库的构建对于理解免疫识别机制至关重要。SAAINTDB数据集源自SAAINT-DB论文，经过系统化处理，转化为适用于机器学习应用的结构化格式。其构建过程包括从11,304个PDB结构中提取21,400个抗体条目，并添加唯一标识符PDB_ID_chain以区分同一结构中的不同抗体链。为确保数据完整性，缺失的mmCIF文件从RCSB蛋白质数据库下载并补充，同时生成对应的FASTA序列文件。数据集按照PDB级别进行分层划分，依据重链和轻链的可用性标签实现平衡分配，有效避免了数据泄露问题。

特点

该数据集在抗体结构研究领域展现出显著特色，其核心在于整合了多维度的生物信息。数据集不仅包含丰富的结构文件，还提供了详细的元数据，如抗体类型、亚组分类、物种来源以及抗原相互作用信息。每个条目均标注了重链和轻链的序列长度、平均半径等结构参数，并特别标注了互补决定区（CDR）的残基信息，为抗体-抗原相互作用分析提供了关键数据支撑。数据集的划分策略确保了训练、验证和测试集在链类型分布上的均衡性，增强了机器学习模型评估的可靠性。

使用方法

针对机器学习在抗体工程中的应用需求，SAAINTDB数据集提供了便捷的访问方式。用户可通过Hugging Face Datasets库直接加载数据集，获得包含训练、验证和测试三个子集的DatasetDict对象。数据集以列导向格式组织，支持直接访问特定字段，并可轻松转换为pandas DataFrame或Parquet格式以适配不同分析流程。结合提供的PDB结构文件和FASTA序列，研究者能够开展从序列分析到结构预测的综合研究，特别适用于抗体表征和相互作用建模等任务。使用时需注意避免电子表格软件对PDB_ID列的科学记数法转换，以确保数据准确性。

背景与挑战

背景概述

抗体作为生物医学领域的关键分子，其结构解析与功能设计一直是计算生物学的前沿课题。SAAINTDB数据集由黄晓强等研究人员于2025年构建，并发表于《中国药理学报》，旨在为抗体建模与设计提供一个全面的结构数据库。该数据集整合了来自11,304个蛋白质数据库结构的21,400个抗体条目，涵盖了丰富的结构、序列及互作信息，显著推动了抗体工程与人工智能交叉领域的发展，为机器学习模型训练提供了标准化、高质量的结构数据基础。

当前挑战

在抗体结构预测与设计领域，核心挑战在于准确建模抗体的高变区构象及其与抗原的特异性结合。SAAINTDB数据集致力于解决这一复杂问题，但其构建过程亦面临多重困难：原始数据中部分PDB结构文件缺失，需从RCSB数据库补充下载并生成对应FASTA序列；为确保数据划分的平衡性与避免泄露，需依据重链与轻链的完整性进行分层抽样，并将同一PDB来源的所有条目归入同一分割，这增加了数据预处理的复杂度。

常用场景

经典使用场景

在抗体工程与计算生物学领域，SAAINTDB数据集为机器学习模型提供了丰富的结构数据基础。该数据集整合了来自11,304个PDB结构的21,400个抗体条目，包含完整的序列、结构及元数据信息。其经典应用场景集中于抗体结构预测与设计，研究人员可利用其训练深度学习模型，以准确预测抗体的三维构象、识别互补决定区（CDR）的构象变化，并优化抗体-抗原相互作用的亲和力与特异性。数据集的分层划分策略确保了模型评估的严谨性，为抗体理性设计提供了可靠的基准平台。

实际应用

在生物医药研发的实际场景中，SAAINTDB数据集为新药发现提供了重要支持。制药企业可利用该数据集训练AI模型，快速筛选具有潜在治疗效能的抗体候选分子，缩短抗体药物的早期开发周期。在疫苗设计领域，数据集有助于解析抗体与病毒抗原的相互作用模式，指导广谱中和抗体的理性设计。此外，该资源还可用于开发诊断试剂中的高特异性抗体，提升检测的灵敏度与准确性，推动精准医疗与个性化治疗的发展。

衍生相关工作

基于SAAINTDB数据集，一系列经典研究工作得以展开。例如，研究人员开发了端到端的抗体结构预测神经网络，利用数据集的序列与结构对齐信息实现了高精度建模。另有工作聚焦于抗体-抗原对接的强化学习框架，通过数据集中的相互作用残基数据优化结合自由能计算。此外，该数据集还支撑了抗体语言模型的预训练，使其能够生成具有特定结合特性的新型抗体序列。这些衍生工作共同推动了抗体计算设计领域的算法创新与工具发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集