protein-secondary-structure-netsurfp

Name: protein-secondary-structure-netsurfp
Creator: LAMM: MIT Laboratory for Atomistic and Molecular Mechanics
Published: 2026-05-25 06:25:50
License: 暂无描述

Hugging Face2026-05-25 更新2026-05-26 收录

下载链接：

https://huggingface.co/datasets/lamm-mit/protein-secondary-structure-netsurfp

下载链接

链接失效反馈

官方服务：

资源简介：

NetSurfP-3.0 Secondary-Structure Splits 是一个用于蛋白质二级结构预测的数据集，专门为 Protein-I-JEPA 探针的训练和评估而设计。数据来源于 NetSurfP-3.0 在线服务的预测结果（使用 hhblits 配置文件生成）。数据集包含蛋白质序列及其对应的每残基三级（Q3）二级结构标签：H 表示螺旋，E 表示 β链，C 表示卷曲或其他结构，. 表示在损失计算和准确度评估中应忽略的残基。数据集提供了五个标准分割：训练集（train，10348 个样本）、验证集（validation，500 个样本）以及三个外部测试集（cb513 含 513 个样本，ts115 含 115 个样本，casp12 含 21 个样本）。每个样本包含以下字段：序列（sequence，字符串类型）、标签（labels，字符串类型）、序列长度（seq_length，整型）、有效标签计数（valid_label_count，整型）、所属分割（split，字符串类型）和标签模式（label_schema，字符串类型）。该数据集适用于监督式蛋白质二级结构预测任务的模型训练、超参数调优和性能评估。

提供机构：

LAMM: MIT Laboratory for Atomistic and Molecular Mechanics

创建时间：

2026-05-25

搜集汇总

数据集介绍

构建方式

该数据集源自NetSurfP-3.0工具生成的蛋白质二级结构标签，专为Protein-I-JEPA模型的探测训练与评估而设计。数据构建基于hhblits序列谱分析，将原始标签映射为Q3三态编码（H:螺旋、E:β折叠、C:无规卷曲），并引入“.”标记作为损失计算与精度评估中被忽略的残基。数据集以JSONL格式存储，共包含10348条训练样本、500条验证样本，以及cb513（513条）、ts115（115条）、casp12（21条）三个独立测试集，从而实现了多层次的训练与评估划分。

使用方法

在使用时，推荐将训练集（train）用于监督探测模型的训练，验证集（validation）用于调节探测器的超参数。三个外部测试集（cb513、ts115、casp12）作为最终性能评估基准，可用于检验模型在未见数据上的泛化能力。数据集同时提供JSONL与TSV两种格式，便于不同框架的接入。由于标签序列与氨基酸序列长度一致，用户可直接按残基位置进行对齐，并依据有效标签计数过滤无效残基，完成损失计算与精度统计。

背景与挑战

背景概述

蛋白质二级结构预测是计算生物学领域的一项基础任务，旨在从氨基酸序列中推断出螺旋（H）、链（E）和无规卷曲（C）等局部构象。NetSurfP-3.0是由丹麦技术大学（DTU）健康技术团队开发的深度学习工具，其衍生的蛋白质二级结构数据集于近期构建完成，用于支持蛋白质表示学习模型（如Protein-I-JEPA）的探针训练与评估。该数据集通过hhblits序列比对工具生成特征，采用经典的Q3三级标注体系，并划分了训练集（10,348条序列）、验证集（500条）以及CB513、TS115和CASP12等多个独立测试集。这些测试集源自公认的结构生物学基准，使得该数据集在蛋白质结构预测方法比较中具有显著权威性，有助于推动无监督或自监督蛋白质表示学习的发展。

当前挑战

该数据集所应对的领域核心挑战在于：传统监督学习方法高度依赖大规模且精确标注的蛋白质结构数据，但实验测定（如X射线晶体学、冷冻电镜）耗时且昂贵，限制了可标注蛋白质的覆盖范围与多样性。构建过程中的挑战同样显著：原始NetSurfP-3.0预测结果存在标签噪声，需在转换中保持准确性；多源测试集（如CB513、CASP12）在序列长度、进化深度及折叠类型上分布不均，直接混合训练可能导致过拟合或泛化能力下降；此外，通过hhblits生成的序列特征需避免信息泄漏，确保探针训练仅依赖序列本身，而非演化信息中隐含的结构先验。这些困难要求构建者在数据清洗、划分策略及格式标准化上投入精细考量。

常用场景

经典使用场景

在蛋白质结构预测与功能解析的研究领域中，protein-secondary-structure-netsurfp数据集堪称经典基准资源。它基于NetSurfP-3.0工具生成的二级结构标注，将蛋白质序列映射为Q3分类标签（螺旋H、折叠E、卷曲C），广泛应用于监督学习探针的训练与评估。研究者常利用其提供的训练集（约10348条序列）构建深度学习模型，并通过验证集（500条）调优超参数，最终在独立的测试集（如CB513、TS115、CASP12）上衡量泛化能力，成为验证蛋白质二级结构预测算法鲁棒性的黄金标准。

解决学术问题

该数据集精准回应了蛋白质结构预测中若干核心学术难题。首先，它解决了大规模序列标注数据匮乏的困境，为自监督表示学习提供了高质量的下游任务探针，帮助评估蛋白质嵌入模型（如Protein-I-JEPA）对序列结构关系的捕获能力。其次，通过统一采用HHblits谱文件衍生的标签，消弭了不同工具间标注不一致的歧义，使研究者能聚焦于模型架构设计。其标准化划分更推动了跨论文结果的公平对比，加速了从序列到二级结构映射规则的探索进程。

实际应用

在实际生物医学工程中，该数据集支撑着诸多关键应用。药物研发领域可利用训练好的模型快速筛选候选蛋白的结构域，指导靶点结合位点的解析；合成生物学中，准确的二级结构预测辅助设计具有特定折叠模式的酶或抗体，提升工业催化效率；此外，在疾病相关突变分析时，预测结构变化有助于定位错义突变对蛋白稳定性的影响，为精准医疗提供计算依据。这些应用不仅降低了实验成本，也缩短了从序列信息到结构认知的周期。

数据集最近研究