2J-Protein-Couplings

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/RosettaCommons/2J-Protein-Couplings

下载链接

链接失效反馈

官方服务：

资源简介：

2J-Protein-Coupling数据集是从Biological Magnetic Resonance Data Bank (BMRB)中整理的，源自一篇研究论文。该数据集包含3999个2J耦合测量数据，涉及5种不同的蛋白质和最多10种不同的实验。数据内容包括PDB ID、蛋白质序列以及15N、13C和1H的2J耦合数据。数据集中的每一行代表一个较大的大分子组装体中的单个聚合物链。关键字段包括：entry_id（来自BMRB的ID）、file_name（由实验和entry_id命名）、sequence_length（蛋白质序列的长度）、sequence（单字母氨基酸代码表示的蛋白质序列）、experiment_code（实验类型）和num_measurements（每个蛋白质记录的实验数量）。该数据集适用于蛋白质结构分析和相关研究任务。

The 2J-Protein-Coupling dataset is curated from the Biological Magnetic Resonance Data Bank (BMRB) and originates from a research paper. This dataset comprises 3999 sets of 2J coupling measurement data, involving 5 distinct proteins and up to 10 different experiments. The included data covers PDB IDs, protein sequences, as well as 2J coupling data for 15N, 13C and 1H nuclei. Each row in the dataset represents a single polymer chain within a larger macromolecular assembly. Key fields include: entry_id (ID sourced from BMRB), file_name (named based on experiment and entry_id), sequence_length (length of the protein sequence), sequence (protein sequence represented by single-letter amino acid codes), experiment_code (experiment type) and num_measurements (number of experimental records per protein). This dataset is applicable for protein structure analysis and related research tasks.

创建时间：

2026-03-04

原始信息汇总

2J-Protein-Coupling 数据集概述

数据集基本信息

数据集名称：2J-Protein-Coupling Dataset
托管平台：Hugging Face
数据集地址：https://huggingface.co/datasets/RosettaCommons/2J-Protein-Couplings
标签：proteins, nmr
数据规模：n<1K
配置名称：main
数据文件：2J_couplings.csv (split: 2J_couplings)

许可信息

许可证类型：other
许可证名称：non-commercial-license-dyna1
许可证链接：https://github.com/WaymentSteeleLab/Dyna-1/blob/main/LICENSE.txt

数据内容与来源

数据总量：3999个2J耦合常数
蛋白质来源：来自5种不同的蛋白质
实验数量：最多来自10种不同的实验
数据类型：包含PDB ID、蛋白质序列、15N、13C和1H的2J耦合数据
序列来源：序列数据来自蛋白质数据库（Protein Data Bank）
原始数据来源：该数据集整理自以下研究论文：
- Schmidt, Jurgen; Hua, Yixun; Lohr, Frank. "Correlation of (2)J couplings with protein secondary structure." Proteins 78, 1544-1562 (2010).
- 论文链接：https://doi.org/10.1002/prot.22672
数据来源数据库：生物磁共振数据库（Biological Magnetic Resonance Data Bank, BMRB）

数据集结构

每一行代表一个较大分子组装体中的单个聚合物链。关键字段包括：

entry_id：生物磁共振数据库（BMRB）的ID
file_name：由实验和entry_id命名的文件名
sequence_length：蛋白质序列的长度
sequence：以单字母氨基酸代码表示的蛋白质序列
experiment_code：实验类型
num_measurements：为每个蛋白质记录的实验数量

快速使用指南

1. 安装datasets库

从终端/命令行安装： bash pip install datasets

在Jupyter Notebook中安装： python !pip install datasets

2. 在Python中加载数据集

python from datasets import load_dataset

dataset_protein = load_dataset( "nlangdon/2J-Protein-Coupling", data_files="Protein/*.csv" )

3. 访问数据集列

python

示例：获取蛋白质序列和长度

sequences = dataset_protein["train"]["sequence"] lengths = dataset_protein["train"]["sequence_length"]

print(sequences[:5]) print(lengths[:5])

数据整理者

该数据集由Nicolas Langdon (nblangdon@wesleyan.edu) 从上述五篇原始论文中整理而来。

搜集汇总

数据集介绍

构建方式

在结构生物学领域，核磁共振（NMR）技术是解析蛋白质动态构象的关键手段。2J-Protein-Coupling数据集的构建源于对蛋白质二级结构与二键耦合常数（2J couplings）关联性的深入研究。该数据集从Biological Magnetic Resonance Data Bank（BMRB）中系统提取，基于Schmidt等人于2010年发表的学术论文，涵盖了五种不同蛋白质在多达十种实验条件下获取的3999个2J耦合数据。数据经过精心整理，整合了来自Protein Data Bank的序列信息，并按照PDB ID、序列以及15N、13C和1H的2J耦合数据进行结构化组织，确保了数据的完整性与可追溯性。

特点

该数据集在蛋白质核磁共振研究领域展现出鲜明的特色。其核心在于提供了丰富的二键耦合常数测量值，这些数据直接关联蛋白质的局部构象与二级结构，为理解蛋白质动态行为提供了量化依据。数据集覆盖了多种实验条件与蛋白质类型，包含了entry_id、序列长度、单字母氨基酸序列、实验代码及测量次数等关键字段，每一行代表一个高分子组装体中的单个聚合物链。这种多维度的数据组织方式不仅支持结构生物学的深入分析，也为机器学习模型在蛋白质性质预测方面的训练提供了高质量、结构化的标注资源。

使用方法

为便于科研人员高效利用该数据集，开发者提供了清晰的技术路径。用户首先需通过pip命令安装datasets库，随后在Python环境中使用load_dataset函数加载指定路径的CSV文件。数据加载后，可直接访问如蛋白质序列、序列长度等关键列，进行初步的数据探查与分析。该数据集适用于蛋白质结构预测、核磁共振参数关联性研究以及生物信息学算法开发等多个方向，其标准化的格式与易用的接口显著降低了数据获取与预处理的技术门槛，有力支撑了计算生物学领域的实证研究。

背景与挑战

背景概述

在结构生物学与核磁共振波谱学领域，蛋白质二级结构的精确解析是理解其功能与动态行为的关键。2J-Protein-Coupling数据集由研究人员于2010年基于Jurgen Schmidt等人的研究成果构建，旨在探索二键耦合常数与蛋白质二级结构之间的相关性。该数据集汇集了来自五种不同蛋白质的3999个2J耦合测量值，涵盖了氮-15、碳-13和氢-1的核磁共振数据，并整合了蛋白质数据库中的序列信息。其创建为量化蛋白质构象特征提供了重要实验依据，推动了核磁共振数据在蛋白质结构预测与验证中的应用，增强了计算模型与实验观测之间的衔接。

当前挑战

该数据集致力于解决蛋白质结构解析中二键耦合常数与二级结构关联的量化挑战，其核心问题在于如何从稀疏的核磁共振测量中准确推断局部构象特征。构建过程中的挑战包括数据采集的异质性，例如不同实验条件下的测量一致性难以保证，以及原始数据的整合与标准化需求，需从多篇研究论文中提取并统一格式。此外，数据集规模相对有限，仅涵盖五种蛋白质，可能限制其统计普适性与机器学习模型的泛化能力，反映了实验数据获取的高成本与复杂性。

常用场景

经典使用场景

在结构生物学与核磁共振（NMR）光谱学领域，2J-Protein-Coupling数据集为研究人员提供了关键的实验数据，用于探究蛋白质二级结构与二键耦合常数（2J couplings）之间的关联。该数据集整合了来自五种不同蛋白质的3999个2J耦合测量值，涵盖了氮-15、碳-13和氢-1等多种核素的实验数据，为构建和验证蛋白质结构预测模型提供了实证基础。经典应用场景包括利用这些耦合常数数据，通过机器学习或统计方法，推断蛋白质的局部构象，如α-螺旋、β-折叠等二级结构元素，从而深化对蛋白质折叠动力学的理解。

衍生相关工作

基于2J-Protein-Coupling数据集，多项经典研究工作得以衍生。例如，Schmidt等人2010年的开创性论文《Correlation of (2)J couplings with protein secondary structure》系统建立了2J耦合常数与二级结构的关联框架，为后续研究奠定了基础。此后，研究者们扩展了这一工作，开发了多种机器学习算法，如支持向量机和神经网络模型，用于从耦合数据中自动预测蛋白质结构。这些衍生工作不仅丰富了结构生物学的方法论，还促进了跨学科融合，推动了计算生物学与实验光谱学的协同发展。

数据集最近研究