five

protein-secondary-structure-netsurfp

收藏
Hugging Face2026-05-25 更新2026-05-26 收录
下载链接:
https://huggingface.co/datasets/lamm-mit/protein-secondary-structure-netsurfp
下载链接
链接失效反馈
官方服务:
资源简介:
NetSurfP-3.0 Secondary-Structure Splits 是一个用于蛋白质二级结构预测的数据集,专门为 Protein-I-JEPA 探针的训练和评估而设计。数据来源于 NetSurfP-3.0 在线服务的预测结果(使用 hhblits 配置文件生成)。数据集包含蛋白质序列及其对应的每残基三级(Q3)二级结构标签:H 表示螺旋,E 表示 β链,C 表示卷曲或其他结构,. 表示在损失计算和准确度评估中应忽略的残基。数据集提供了五个标准分割:训练集(train,10348 个样本)、验证集(validation,500 个样本)以及三个外部测试集(cb513 含 513 个样本,ts115 含 115 个样本,casp12 含 21 个样本)。每个样本包含以下字段:序列(sequence,字符串类型)、标签(labels,字符串类型)、序列长度(seq_length,整型)、有效标签计数(valid_label_count,整型)、所属分割(split,字符串类型)和标签模式(label_schema,字符串类型)。该数据集适用于监督式蛋白质二级结构预测任务的模型训练、超参数调优和性能评估。
提供机构:
LAMM: MIT Laboratory for Atomistic and Molecular Mechanics
创建时间:
2026-05-25
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自NetSurfP-3.0工具生成的蛋白质二级结构标签,专为Protein-I-JEPA模型的探测训练与评估而设计。数据构建基于hhblits序列谱分析,将原始标签映射为Q3三态编码(H:螺旋、E:β折叠、C:无规卷曲),并引入“.”标记作为损失计算与精度评估中被忽略的残基。数据集以JSONL格式存储,共包含10348条训练样本、500条验证样本,以及cb513(513条)、ts115(115条)、casp12(21条)三个独立测试集,从而实现了多层次的训练与评估划分。
使用方法
在使用时,推荐将训练集(train)用于监督探测模型的训练,验证集(validation)用于调节探测器的超参数。三个外部测试集(cb513、ts115、casp12)作为最终性能评估基准,可用于检验模型在未见数据上的泛化能力。数据集同时提供JSONL与TSV两种格式,便于不同框架的接入。由于标签序列与氨基酸序列长度一致,用户可直接按残基位置进行对齐,并依据有效标签计数过滤无效残基,完成损失计算与精度统计。
背景与挑战
背景概述
蛋白质二级结构预测是计算生物学领域的一项基础任务,旨在从氨基酸序列中推断出螺旋(H)、链(E)和无规卷曲(C)等局部构象。NetSurfP-3.0是由丹麦技术大学(DTU)健康技术团队开发的深度学习工具,其衍生的蛋白质二级结构数据集于近期构建完成,用于支持蛋白质表示学习模型(如Protein-I-JEPA)的探针训练与评估。该数据集通过hhblits序列比对工具生成特征,采用经典的Q3三级标注体系,并划分了训练集(10,348条序列)、验证集(500条)以及CB513、TS115和CASP12等多个独立测试集。这些测试集源自公认的结构生物学基准,使得该数据集在蛋白质结构预测方法比较中具有显著权威性,有助于推动无监督或自监督蛋白质表示学习的发展。
当前挑战
该数据集所应对的领域核心挑战在于:传统监督学习方法高度依赖大规模且精确标注的蛋白质结构数据,但实验测定(如X射线晶体学、冷冻电镜)耗时且昂贵,限制了可标注蛋白质的覆盖范围与多样性。构建过程中的挑战同样显著:原始NetSurfP-3.0预测结果存在标签噪声,需在转换中保持准确性;多源测试集(如CB513、CASP12)在序列长度、进化深度及折叠类型上分布不均,直接混合训练可能导致过拟合或泛化能力下降;此外,通过hhblits生成的序列特征需避免信息泄漏,确保探针训练仅依赖序列本身,而非演化信息中隐含的结构先验。这些困难要求构建者在数据清洗、划分策略及格式标准化上投入精细考量。
常用场景
经典使用场景
在蛋白质结构预测与功能解析的研究领域中,protein-secondary-structure-netsurfp数据集堪称经典基准资源。它基于NetSurfP-3.0工具生成的二级结构标注,将蛋白质序列映射为Q3分类标签(螺旋H、折叠E、卷曲C),广泛应用于监督学习探针的训练与评估。研究者常利用其提供的训练集(约10348条序列)构建深度学习模型,并通过验证集(500条)调优超参数,最终在独立的测试集(如CB513、TS115、CASP12)上衡量泛化能力,成为验证蛋白质二级结构预测算法鲁棒性的黄金标准。
解决学术问题
该数据集精准回应了蛋白质结构预测中若干核心学术难题。首先,它解决了大规模序列标注数据匮乏的困境,为自监督表示学习提供了高质量的下游任务探针,帮助评估蛋白质嵌入模型(如Protein-I-JEPA)对序列结构关系的捕获能力。其次,通过统一采用HHblits谱文件衍生的标签,消弭了不同工具间标注不一致的歧义,使研究者能聚焦于模型架构设计。其标准化划分更推动了跨论文结果的公平对比,加速了从序列到二级结构映射规则的探索进程。
实际应用
在实际生物医学工程中,该数据集支撑着诸多关键应用。药物研发领域可利用训练好的模型快速筛选候选蛋白的结构域,指导靶点结合位点的解析;合成生物学中,准确的二级结构预测辅助设计具有特定折叠模式的酶或抗体,提升工业催化效率;此外,在疾病相关突变分析时,预测结构变化有助于定位错义突变对蛋白稳定性的影响,为精准医疗提供计算依据。这些应用不仅降低了实验成本,也缩短了从序列信息到结构认知的周期。
数据集最近研究
最新研究方向
在蛋白质结构预测与功能解析的前沿领域,protein-secondary-structure-netsurfp数据集凭借其源自NetSurfP-3.0的权威二级结构标签,成为自监督学习模型(如Protein-I-JEPA)评估与微调的关键基准。当前研究热点聚焦于利用该数据集训练高精度探针,以提升对蛋白质二级结构(α螺旋、β折叠及无规卷曲)的预测能力,进而助力药物靶点发现与酶工程改造。通过提供的cb513、ts115及casp12等独立测试集,该数据集有效支撑了跨数据集泛化性能的验证,推动了对蛋白质折叠规律及序列-结构映射关系的深入理解,在精准医疗与合成生物学领域具有重要应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作