NAKB

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/RosettaCommons/NAKB

下载链接

链接失效反馈

官方服务：

资源简介：

核酸知识库（NAKB）数据集包含21,166个结构，涵盖核酸、蛋白质和配体注释，以及来自核酸数据库（NDB）和蛋白质数据库（PDB）的3D结构数据。这些结构通过X射线、电子显微镜和核磁共振等方法确定。数据集按链拆分并添加了序列信息，每条记录代表一个聚合物链。关键字段包括：polyclass（整体组装分类）、released（发布日期）、resolution（实验分辨率）、method（结构测定方法）、chains（链标识符）、polytype（聚合物类型）、description（分子功能或规范名称）、entityMW（分子量）和seq（序列）。数据集适用于生物信息学、结构生物学和分子建模等领域的研究。

The Nucleic Acid Knowledge Base (NAKB) dataset contains 21,166 structures, covering annotations of nucleic acids, proteins, and ligands, as well as 3D structural data sourced from the Nucleic Acid Database (NDB) and Protein Data Bank (PDB). These structures were determined via experimental methods including X-ray crystallography, electron microscopy, and nuclear magnetic resonance (NMR). The dataset is split by individual polymer chains and supplemented with sequence information, where each record represents a single polymer chain. Key fields include: polyclass (global assembly classification), released (release date), resolution (experimental resolution), method (structure determination method), chains (chain identifiers), polytype (polymer type), description (molecular function or standardized name), entityMW (molecular weight), and seq (sequence). This dataset is applicable to research in fields such as bioinformatics, structural biology, and molecular modeling.

创建时间：

2026-03-03

原始信息汇总

NAKB数据集概述

数据集基本信息

数据集名称: NAKB (Nucleic Acid Knowledgebase)
发布方: RosettaCommons
许可证: mit (具体为non-commercial-license-dyna1)
许可证链接: https://github.com/WaymentSteeleLab/Dyna-1/blob/main/LICENSE.txt
标签: proteins, nucleic acids
数据规模: n<1K

数据来源与背景

原始论文: Lawson CL, Berman HM, Vallat B, Chen L, Zirbel C (2024) The Nucleic Acid Knowledgebase: a new portal for 3D structural information about nucleic acids. Nucleic Acids Research 52, D245-D254.
论文链接: https://doi.org/10.1093/nar/gkad957
数据内容: 数据集包含21166个结构，涵盖核酸、蛋白质和配体注释，以及来自核酸数据库（NDB）和蛋白质数据库（PDB）的3D结构，包括通过X射线、电子显微镜和核磁共振确定的结构。信息包括PDB/NDB ID、发布日期、序列、聚合物组成和分子量。

数据结构与配置

配置名称: main
数据文件与分割:
- DNA分割: DNA/DNA.csv
- Hybrid分割: Hybrid/Hybrid.csv
- PNA分割: PNA/PNA.csv
- Protein分割: Protein/Protein.csv
- RNA分割: RNA/RNA.csv
- other分割: other/other.csv

数据字段说明

数据集中的每一行代表一个更大分子组装体中的一个聚合物链。关键字段包括：

polyclass: 整体组装分类，描述链所在大分子复合物的类型（例如，Protein/RNA），反映完整结构的生物组成。
released: 结构发布日期。
resolution: 实验分辨率（Ångströms）。
method: 结构测定方法（例如，EM表示电子显微镜）。
chains: 结构内的链标识符。
polytype: 单个链的聚合物类型（例如，Protein, RNA），指该行所代表特定链的分子身份。
description: 分子的功能或规范名称（例如，核糖体蛋白如40S或60S亚基）。
entityMW: 实体的分子量（kDa）。
seq: 聚合物链的氨基酸或核苷酸序列。

关键概念区分

polyclass: 定义生物组装类别（例如，由蛋白质和RNA组成的核糖核蛋白复合物）。
polytype: 定义该行所列特定链的化学性质。
示例: 在一个Protein/RNA的polyclass组装（如核糖体）中，单个行的polytype可能是Protein（例如，核糖体蛋白）或RNA（例如，rRNA链）。因此，单个polyclass内可以存在多种polytype。这种区分使数据集能够同时表示结构的系统级组成及其单个组件的分子身份。

快速使用指南

安装: 使用pip install datasets安装HuggingFace Datasets包。
加载数据示例: python from datasets import load_dataset dataset_protein = load_dataset( "JOOOOOOOOOOJ/Rosetta_NAKB", data_files="Protein/*.csv" ) dataset_protein["train"].head()

搜集汇总

数据集介绍

构建方式

在结构生物学与生物信息学领域，NAKB数据集通过整合来自核酸数据库（NDB）和蛋白质数据库（PDB）的权威三维结构信息构建而成。该数据集涵盖了21166个结构，包括核酸、蛋白质及配体注释，这些结构通过X射线晶体学、电子显微镜和核磁共振等多种实验方法测定。构建过程中，每个聚合物链被单独标注，并添加了序列、分子量等关键元数据，从而形成按链分割的精细数据集合。

使用方法

利用NAKB数据集进行生物分子结构分析时，用户可通过HuggingFace Datasets库便捷地加载数据。首先安装`datasets`库，随后使用`load_dataset`函数指定所需子集（如蛋白质或RNA）的CSV文件路径即可导入。数据以行为单位表示单个聚合物链，关键字段如`polytype`、`seq`和`resolution`可直接用于序列分析、结构质量评估或机器学习模型训练。这种模块化访问方式支持研究者灵活提取特定类型的生物分子数据，以驱动结构预测或功能注释等下游任务。

背景与挑战

背景概述

核酸知识库（NAKB）数据集由Lawson等人于2024年构建，作为整合核酸三维结构信息的重要资源，标志着结构生物学领域对核酸及其复合物系统性编目的新进展。该数据集依托于核酸数据库（NDB）和蛋白质数据库（PDB），收录了超过两万条通过X射线晶体学、电子显微镜及核磁共振等技术解析的结构，涵盖核酸、蛋白质及配体注释，为核心研究问题——如核酸-蛋白质相互作用机制、核糖核蛋白复合物的组装与功能——提供了全面的结构基础。其发布不仅促进了计算生物学与药物设计领域的发展，还为理解基因表达调控、病毒复制等生命过程提供了关键的结构视角。

当前挑战

NAKB数据集致力于解决结构生物学中核酸及其复合物三维结构系统化整合与分析的挑战，其核心问题在于如何高效表征多组分大分子组装体的复杂相互作用。构建过程中，研究人员面临数据异质性带来的整合难题，包括不同实验方法（如X射线、冷冻电镜）所得分辨率与格式的差异，以及多链组装体中聚合物类型（polytype）与整体类别（polyclass）的精确标注。此外，确保序列、分子量等注释信息的准确性与一致性，并处理大规模结构数据的标准化存储与访问，亦是数据集构建的关键技术障碍。

常用场景

经典使用场景

在结构生物学与生物信息学领域，NAKB数据集作为核酸与蛋白质三维结构信息的综合性资源，其经典使用场景聚焦于大分子复合物的序列-结构关系分析。研究者通过整合数据集中的多聚物类别、序列及分辨率等关键字段，能够系统性地探索核酸-蛋白质相互作用界面的结构特征，例如在核糖体或剪接体等核糖核蛋白复合物的功能机制研究中，该数据集为揭示分子识别与组装原理提供了详实的结构基础。

解决学术问题

NAKB数据集有效解决了结构生物学中关于核酸与蛋白质复合物系统性表征的学术挑战。通过提供涵盖X射线晶体学、电子显微镜及核磁共振等多种实验方法获取的结构信息，该数据集支持研究人员深入探讨大分子组装的多尺度构效关系，尤其在解析非编码RNA与蛋白质互作网络、以及表观遗传调控因子的结构基础方面，填补了传统单一分子类型数据库的空白，推动了跨分子类别的整合性结构生物学研究。

实际应用

在实际应用层面，NAKB数据集为药物设计与精准医疗提供了关键的结构生物学支持。基于数据集中的三维结构注释与序列信息，计算生物学家能够开发针对核酸-蛋白质相互作用界面的虚拟筛选平台，加速针对病毒RNA复制酶或癌症相关非编码RNA的小分子抑制剂发现。此外，该数据集在合成生物学中指导人工核酶或核糖开关的设计，优化基因调控元件的功能性与特异性。

数据集最近研究