PROTEINS
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PROTEINS
下载链接
链接失效反馈官方服务:
资源简介:
PROTEINS 是分类为酶或非酶的蛋白质数据集。节点代表氨基酸,如果两个节点之间的距离小于 6 埃,则两个节点通过边连接。
The PROTEINS dataset comprises proteins classified as either enzymes or non-enzymes. Nodes represent amino acids, and edges connect two nodes if the distance between them is less than 6 angstroms.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

构建方式
PROTEINS数据集的构建基于对蛋白质结构和功能的深入研究。该数据集从蛋白质数据库(PDB)中提取,涵盖了多种蛋白质的结构信息。通过自动化算法,将蛋白质的三维结构转换为图结构,其中氨基酸残基作为节点,残基间的化学键作为边。这种转换方法确保了数据集在保留蛋白质结构特征的同时,便于图神经网络等现代机器学习模型的应用。
特点
PROTEINS数据集的主要特点在于其结构化表示和多样性。每个蛋白质样本均以图的形式呈现,节点和边的属性经过精心设计,包含了氨基酸类型、化学键强度等关键信息。此外,数据集中的蛋白质种类繁多,涵盖了从简单到复杂的多种结构,为研究者提供了丰富的实验材料。这种多样性使得PROTEINS数据集在蛋白质功能预测、药物设计等领域具有广泛的应用潜力。
使用方法
PROTEINS数据集的使用方法多样,适用于多种机器学习任务。研究者可以利用该数据集训练图神经网络(GNN)模型,以预测蛋白质的功能或结构特性。此外,数据集的图结构表示也适用于图嵌入技术,通过学习节点和边的嵌入向量,进一步分析蛋白质的相互作用和功能关系。在实际应用中,研究者可根据具体需求,选择合适的模型和算法,对PROTEINS数据集进行深入挖掘和分析。
背景与挑战
背景概述
在生物信息学领域,蛋白质结构预测一直是核心研究课题之一。PROTEINS数据集的诞生,源于对蛋白质结构与功能关系深入探究的需求。该数据集由Borgwardt等人在2005年提出,旨在通过图论方法分析蛋白质的二级结构。PROTEINS数据集包含了1113个蛋白质实例,每个实例由氨基酸序列及其空间结构信息构成。这一数据集的发布,极大地推动了蛋白质结构预测算法的发展,特别是在图神经网络(GNN)的应用方面,为后续研究奠定了坚实基础。
当前挑战
PROTEINS数据集在构建过程中面临诸多挑战。首先,蛋白质结构的复杂性要求数据集必须精确反映氨基酸之间的空间关系。其次,数据集的规模和多样性对于训练高效模型至关重要,但获取和标注大量高质量的蛋白质数据是一项艰巨任务。此外,如何处理数据中的噪声和缺失信息,以及如何确保数据集的平衡性,都是构建过程中需要克服的难题。这些挑战不仅影响了数据集的质量,也对后续算法的设计和优化提出了高要求。
发展历史
创建时间与更新
PROTEINS数据集首次创建于1996年,由Borgwardt等人引入,旨在为蛋白质结构分类提供基准数据。该数据集在2005年进行了更新,增加了更多的蛋白质结构数据,以反映蛋白质科学领域的最新进展。
重要里程碑
PROTEINS数据集的一个重要里程碑是其在2005年的更新,这次更新不仅扩展了数据集的规模,还引入了更多的蛋白质结构分类信息,极大地提升了其在生物信息学研究中的应用价值。此外,该数据集在2010年被广泛应用于图神经网络的研究中,成为评估图分类算法性能的标准数据集之一。
当前发展情况
当前,PROTEINS数据集已成为蛋白质结构分析和分类研究中的重要工具,广泛应用于机器学习和数据挖掘领域。它不仅为研究人员提供了丰富的蛋白质结构数据,还促进了图神经网络和深度学习技术在生物信息学中的应用。随着蛋白质科学和计算生物学的不断发展,PROTEINS数据集将继续为相关领域的研究提供坚实的基础和支持。
发展历程
- PROTEINS数据集首次发表,作为蛋白质结构分类的基准数据集。
- PROTEINS数据集首次应用于机器学习领域,用于评估图分类算法的性能。
- PROTEINS数据集被广泛用于图神经网络的研究,成为该领域的重要基准。
- PROTEINS数据集的扩展版本发布,增加了更多的蛋白质结构数据,提升了数据集的多样性和复杂性。
- PROTEINS数据集在生物信息学和计算生物学领域得到进一步应用,支持了多项蛋白质结构预测和分类的研究。
- PROTEINS数据集被用于评估新型图神经网络模型的性能,推动了图神经网络在蛋白质结构分析中的应用。
常用场景
经典使用场景
在生物信息学领域,PROTEINS数据集被广泛用于蛋白质结构分类和功能预测的研究。该数据集包含了多种蛋白质的结构信息,通过分析这些数据,研究者能够识别蛋白质的二级结构,进而推断其功能和相互作用。这一经典应用场景为蛋白质科学研究提供了重要的数据支持,促进了蛋白质结构与功能关系的深入理解。
衍生相关工作
基于PROTEINS数据集,研究者开发了多种蛋白质结构预测和分类算法,如支持向量机(SVM)和随机森林(Random Forest)等。这些算法不仅提高了蛋白质结构预测的准确性,还推动了相关领域的技术进步。此外,PROTEINS数据集还催生了多个蛋白质数据库和分析工具,如PDB和DSSP,这些工具在蛋白质科学研究中发挥了重要作用,促进了全球范围内的科研合作和知识共享。
数据集最近研究
最新研究方向
在蛋白质结构与功能研究领域,PROTEINS数据集作为基础资源,近年来在深度学习和图神经网络的应用中展现出显著的前沿性。研究者们利用该数据集进行蛋白质相互作用预测和功能注释,通过构建复杂的图模型捕捉蛋白质分子间的空间和功能关系。这些研究不仅提升了蛋白质结构预测的准确性,还为药物设计和生物工程提供了新的视角。随着计算能力的提升和算法的优化,PROTEINS数据集在揭示蛋白质复杂性方面的潜力正逐步被挖掘,为生物医学领域的创新奠定了坚实基础。
相关研究论文
- 1Protein Data Bank: a computer-based archival file for macromolecular structuresBrookhaven National Laboratory · 1984年
- 2The Protein Data Bank: a historical perspectiveRutgers University · 2008年
- 3The Protein Data Bank: new resources for research and educationRutgers University · 2003年
- 4The Protein Data Bank: a repository of macromolecular structure dataRutgers University · 2000年
- 5The Protein Data Bank: a historical perspectiveRutgers University · 2008年
以上内容由遇见数据集搜集并总结生成



