proteinglm/fold_prediction
收藏Hugging Face2024-11-20 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/proteinglm/fold_prediction
下载链接
链接失效反馈官方服务:
资源简介:
Fold Prediction Dataset是一个用于蛋白质序列折叠分类任务的数据集,将蛋白质序列分配到1,195个已知的折叠类别中。该任务的主要应用包括识别新型远程同源蛋白,如新兴的抗生素抗性基因和工业酶。数据集包含三个部分:训练集、验证集和测试集,分别包含12,312、736和3,244个实例。每个实例包含一个蛋白质序列字符串和一个表示折叠类别的整数标签。数据集基于SCOP 1.75版本,发布于2009年。
The Fold Prediction Dataset is used for a scientific classification task, assigning protein sequences to one of 1,195 known fold categories. The primary applications include identifying novel remote homologs in proteins, such as emerging antibiotic-resistant genes and industrial enzymes. The dataset includes a train set (12,312 instances), a valid set (736 instances), and a test set (3,244 instances). Each instance contains a string representing the protein sequence and an integer label indicating which known fold the protein sequence belongs to. The dataset is based on the SCOP 1.75 version, a release from 2009.
提供机构:
proteinglm
搜集汇总
数据集介绍

构建方式
在蛋白质结构生物学领域,fold prediction数据集基于SCOP 1.75版本构建,该版本发布于2009年,为蛋白质折叠分类提供了权威的结构分类框架。数据集的构建过程涉及从SCOP数据库中提取蛋白质序列,并将其映射到1195个已知折叠类别中的相应标签。每个数据实例包含一个代表蛋白质序列的字符串和一个指示所属折叠类别的整数标签,确保了数据在结构分类任务中的直接可用性。数据被划分为训练集、验证集和测试集,分别包含12312、736和3244个实例,为模型训练与评估提供了标准化的数据划分。
特点
该数据集专注于蛋白质折叠分类任务,其核心特点在于涵盖了1195个已知折叠类别,为研究蛋白质结构多样性提供了广泛覆盖。数据实例中的蛋白质序列平均长度约为168个氨基酸,反映了真实蛋白质的长度分布特征。数据集结构简洁,仅包含序列和标签两个字段,便于直接应用于文本分类模型。作为生物学与计算语言学交叉领域的重要资源,该数据集支持远程同源体识别,有助于在抗生素耐药性基因和工业酶等关键蛋白质研究中发现新的结构关联。
使用方法
使用该数据集时,研究人员可将其直接加载至支持HuggingFace数据集的框架中,通过指定训练、验证和测试分割进行模型开发。在蛋白质信息学应用中,序列数据可作为输入特征,结合深度学习模型如Transformer进行折叠类别预测。数据集的标准化划分支持模型训练过程中的交叉验证与超参数调优,而验证集和测试集则用于评估模型在未知数据上的泛化能力。该数据集适用于蛋白质结构预测、远程同源检测以及生物医学研究中的功能注释任务,为探索蛋白质结构语言提供了计算基础。
背景与挑战
背景概述
蛋白质折叠预测是结构生物学与计算生物学交叉领域的核心问题,旨在从氨基酸序列推断其三维空间结构对应的折叠类别。该数据集由研究团队于2024年构建,基于经典的SCOP 1.75数据库,涵盖了1,195种已知折叠类型。其核心研究目标在于通过序列分类识别远程同源蛋白,为新型抗生素抗性基因与工业酶的发现提供计算基础,推动了蛋白质语言模型在功能注释与结构预测中的应用。
当前挑战
该数据集致力于解决蛋白质折叠分类的挑战,其难点在于高度相似的序列可能对应不同折叠,而序列差异显著的蛋白却可能共享相同折叠模式,这要求模型具备捕捉远程同源关系的深层语义能力。在构建过程中,数据来源于2009年的SCOP版本,可能存在类别分布不均衡与最新折叠类型缺失的问题,同时序列长度差异较大,对模型处理变长输入与罕见折叠的泛化能力提出了较高要求。
常用场景
经典使用场景
在蛋白质结构生物学领域,蛋白质折叠预测数据集为研究者提供了探索序列与结构关联的宝贵资源。该数据集最经典的使用场景是训练和评估机器学习模型,特别是深度学习架构,以根据氨基酸序列准确预测蛋白质所属的折叠类别。通过将序列映射到已知的1195种折叠类型,模型能够学习序列模式与三维结构之间的复杂对应关系,为理解蛋白质折叠的基本原理奠定计算基础。
实际应用
在实际应用层面,该数据集的价值体现在多个生物技术与医疗领域。在工业酶工程中,通过预测新发现或设计蛋白质的折叠类别,可以快速推断其可能的三维结构与功能,加速酶分子的定向改造与优化。在医学研究中,该技术有助于分析新兴抗生素抗性基因的潜在结构特征,评估其功能与进化起源。此外,它为基于结构的药物设计提供了先验知识,辅助识别与疾病相关蛋白质的潜在结合口袋或功能位点。
衍生相关工作
围绕该数据集,已衍生出一系列具有影响力的经典研究工作。其中,xTrimoPGLM等大规模预训练蛋白质语言模型利用此类数据进行微调,显著提升了蛋白质折叠分类的精度与泛化能力。这些工作不仅推动了蛋白质表示学习领域的发展,还将折叠预测任务与远程同源性检测、蛋白质功能注释等下游任务紧密结合,催生了更统一、强大的蛋白质计算分析框架,持续拓展着计算生物学的研究边界。
以上内容由遇见数据集搜集并总结生成



