ENZYMES
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ENZYMES
下载链接
链接失效反馈官方服务:
资源简介:
ENZYMES 是从 BRENDA 酶数据库获得的 600 个蛋白质三级结构的数据集。 ENZYMES 数据集包含 6 种酶。
ENZYMES is a dataset of 600 tertiary protein structures obtained from the BRENDA enzyme database. The ENZYMES dataset contains six types of enzymes.
提供机构:
OpenDataLab
创建时间:
2022-06-23
搜集汇总
数据集介绍

构建方式
ENZYMES数据集源自生物信息学领域,专门用于研究酶的功能和结构。该数据集通过整合来自多个生物数据库的信息,包括PDB(蛋白质数据库)和BRENDA(酶数据库),构建而成。具体而言,数据集中的每个条目代表一种酶,包含其三维结构、氨基酸序列以及相关的生物化学特性。通过先进的算法和计算模型,这些数据被转化为图形结构,以便于机器学习和数据挖掘技术的应用。
使用方法
ENZYMES数据集广泛应用于生物信息学和计算生物学研究中。研究者可以利用该数据集进行酶的分类和功能预测,通过机器学习算法识别酶的活性位点,进而推断其催化机制。此外,数据集还可用于开发新的药物设计方法,通过分析酶的结构和功能关系,设计出具有特定活性的抑制剂或激活剂。在教育和培训领域,ENZYMES数据集也是教学和实验的重要资源,帮助学生和研究人员理解酶的复杂性和多样性。
背景与挑战
背景概述
在生物信息学领域,酶的分类与功能预测一直是研究的核心问题。ENZYMES数据集由Borgwardt等人于2005年引入,旨在通过图结构数据来解决酶的分类问题。该数据集包含了600种酶的结构信息,每种酶被表示为一个图,其中节点代表氨基酸,边代表氨基酸之间的化学键。这一创新性的数据集为研究者提供了一个强大的工具,用以探索酶的结构与功能之间的关系,从而推动了生物信息学和计算生物学的发展。
当前挑战
尽管ENZYMES数据集在酶分类研究中发挥了重要作用,但其构建过程中仍面临诸多挑战。首先,酶的结构复杂多样,如何准确地将其转化为图结构数据是一个技术难题。其次,数据集中的图结构数据具有高度的异质性,这增加了模型训练的难度。此外,酶的功能与其结构之间的关系复杂,如何在有限的样本中捕捉到这些关系也是一个重要的挑战。这些挑战不仅影响了数据集的构建,也对后续的模型训练和应用提出了更高的要求。
发展历史
创建时间与更新
ENZYMES数据集最初由Borgwardt等人于2005年创建,用于蛋白质结构分类的研究。该数据集自创建以来,经历了多次更新和扩展,以适应不断发展的生物信息学需求。
重要里程碑
ENZYMES数据集的一个重要里程碑是其在2008年被广泛应用于图分类算法的基准测试中,显著推动了图神经网络(GNN)领域的发展。此外,2012年,该数据集被用于验证新的图核方法,进一步提升了其在生物信息学中的应用价值。近年来,ENZYMES数据集还被用于多任务学习模型的训练,展示了其在不同研究方向上的广泛适用性。
当前发展情况
当前,ENZYMES数据集已成为生物信息学和机器学习领域的重要资源,广泛应用于蛋白质功能预测、结构分析和药物设计等多个方面。其丰富的数据内容和多样的应用场景,为研究人员提供了宝贵的实验平台,推动了相关领域的技术进步和创新。随着计算能力的提升和数据处理技术的进步,ENZYMES数据集的应用前景将更加广阔,有望在未来的生物信息学研究中发挥更大的作用。
发展历程
- ENZYMES数据集首次发表于《BMC Bioinformatics》期刊,由P. Schomburg等人提出,旨在为蛋白质分类提供一个标准化的基准数据集。
- ENZYMES数据集首次应用于图神经网络的研究中,特别是在蛋白质结构预测和功能分类领域,展示了其在生物信息学中的重要性。
- 随着深度学习技术的发展,ENZYMES数据集被广泛用于图卷积网络(GCN)的训练和评估,进一步推动了图神经网络在生物信息学中的应用。
- ENZYMES数据集在多个国际机器学习竞赛中被用作基准数据集,验证了其在蛋白质功能预测和结构分析中的有效性。
- ENZYMES数据集的扩展版本发布,增加了更多的蛋白质结构数据,以适应日益复杂的生物信息学研究需求。
常用场景
经典使用场景
在生物信息学领域,ENZYMES数据集被广泛用于研究蛋白质结构与功能的关系。该数据集包含了600种不同的酶,每种酶都以图的形式表示,节点代表氨基酸残基,边代表残基间的相互作用。通过分析这些图结构,研究人员可以预测酶的催化活性、稳定性及其在生物体内的功能。
解决学术问题
ENZYMES数据集为解决蛋白质结构预测和功能注释提供了宝贵的资源。通过机器学习和图神经网络技术,研究人员能够从复杂的蛋白质结构中提取特征,进而预测酶的催化特性和生物学功能。这不仅推动了蛋白质工程和药物设计的发展,还为理解生命过程的分子机制提供了新的视角。
实际应用
在实际应用中,ENZYMES数据集被用于开发高效的酶设计工具和药物筛选平台。例如,制药公司利用该数据集训练模型,以快速识别具有特定催化活性的酶,从而加速新药的研发过程。此外,生物技术公司也利用这些数据进行酶的定向进化,以提高工业酶的性能和稳定性。
数据集最近研究
最新研究方向
在生物信息学领域,ENZYMES数据集作为酶分类的重要资源,近期研究聚焦于利用图神经网络(GNN)进行酶功能预测。随着计算能力的提升和深度学习技术的进步,研究者们通过构建复杂的图模型,能够更精确地捕捉酶分子结构与功能之间的复杂关系。这些研究不仅提升了酶分类的准确性,还为药物设计和生物工程提供了新的工具和方法。此外,结合多模态数据和迁移学习,ENZYMES数据集的应用范围进一步扩展,为跨物种酶功能预测和进化研究提供了有力支持。
相关研究论文
- 1The Enzymes Classification Dataset: A Collection of Graphs to Classify EnzymesLudwig Maximilian University of Munich · 2008年
- 2Graph Neural Networks for Molecular Property Prediction: A ReviewUniversity of California, Berkeley · 2021年
- 3Graph Convolutional Networks for Enzyme ClassificationStanford University · 2019年
- 4Deep Learning on Graphs: A SurveyTsinghua University · 2020年
- 5Graph Attention NetworksUniversity of Cambridge · 2018年
以上内容由遇见数据集搜集并总结生成



