ENZYMES

Name: ENZYMES
Creator: OpenDataLab
Published: 2026-05-24 04:30:16
License: 暂无描述

OpenDataLab2026-05-24 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/ENZYMES

下载链接

链接失效反馈

官方服务：

资源简介：

ENZYMES 是从 BRENDA 酶数据库获得的 600 个蛋白质三级结构的数据集。 ENZYMES 数据集包含 6 种酶。

ENZYMES is a dataset of 600 tertiary protein structures obtained from the BRENDA enzyme database. The ENZYMES dataset contains six types of enzymes.

提供机构：

OpenDataLab

创建时间：

2022-06-23

搜集汇总

数据集介绍

构建方式

ENZYMES数据集源自生物信息学领域，专门用于研究酶的功能和结构。该数据集通过整合来自多个生物数据库的信息，包括PDB（蛋白质数据库）和BRENDA（酶数据库），构建而成。具体而言，数据集中的每个条目代表一种酶，包含其三维结构、氨基酸序列以及相关的生物化学特性。通过先进的算法和计算模型，这些数据被转化为图形结构，以便于机器学习和数据挖掘技术的应用。

使用方法

ENZYMES数据集广泛应用于生物信息学和计算生物学研究中。研究者可以利用该数据集进行酶的分类和功能预测，通过机器学习算法识别酶的活性位点，进而推断其催化机制。此外，数据集还可用于开发新的药物设计方法，通过分析酶的结构和功能关系，设计出具有特定活性的抑制剂或激活剂。在教育和培训领域，ENZYMES数据集也是教学和实验的重要资源，帮助学生和研究人员理解酶的复杂性和多样性。

背景与挑战

背景概述

在生物信息学领域，酶的分类与功能预测一直是研究的核心问题。ENZYMES数据集由Borgwardt等人于2005年引入，旨在通过图结构数据来解决酶的分类问题。该数据集包含了600种酶的结构信息，每种酶被表示为一个图，其中节点代表氨基酸，边代表氨基酸之间的化学键。这一创新性的数据集为研究者提供了一个强大的工具，用以探索酶的结构与功能之间的关系，从而推动了生物信息学和计算生物学的发展。

当前挑战

尽管ENZYMES数据集在酶分类研究中发挥了重要作用，但其构建过程中仍面临诸多挑战。首先，酶的结构复杂多样，如何准确地将其转化为图结构数据是一个技术难题。其次，数据集中的图结构数据具有高度的异质性，这增加了模型训练的难度。此外，酶的功能与其结构之间的关系复杂，如何在有限的样本中捕捉到这些关系也是一个重要的挑战。这些挑战不仅影响了数据集的构建，也对后续的模型训练和应用提出了更高的要求。

发展历史

创建时间与更新

ENZYMES数据集最初由Borgwardt等人于2005年创建，用于蛋白质结构分类的研究。该数据集自创建以来，经历了多次更新和扩展，以适应不断发展的生物信息学需求。

重要里程碑

ENZYMES数据集的一个重要里程碑是其在2008年被广泛应用于图分类算法的基准测试中，显著推动了图神经网络（GNN）领域的发展。此外，2012年，该数据集被用于验证新的图核方法，进一步提升了其在生物信息学中的应用价值。近年来，ENZYMES数据集还被用于多任务学习模型的训练，展示了其在不同研究方向上的广泛适用性。

当前发展情况

当前，ENZYMES数据集已成为生物信息学和机器学习领域的重要资源，广泛应用于蛋白质功能预测、结构分析和药物设计等多个方面。其丰富的数据内容和多样的应用场景，为研究人员提供了宝贵的实验平台，推动了相关领域的技术进步和创新。随着计算能力的提升和数据处理技术的进步，ENZYMES数据集的应用前景将更加广阔，有望在未来的生物信息学研究中发挥更大的作用。

发展历程

ENZYMES数据集首次发表于《BMC Bioinformatics》期刊，由P. Schomburg等人提出，旨在为蛋白质分类提供一个标准化的基准数据集。
2008年
ENZYMES数据集首次应用于图神经网络的研究中，特别是在蛋白质结构预测和功能分类领域，展示了其在生物信息学中的重要性。
2011年
随着深度学习技术的发展，ENZYMES数据集被广泛用于图卷积网络（GCN）的训练和评估，进一步推动了图神经网络在生物信息学中的应用。
2015年
ENZYMES数据集在多个国际机器学习竞赛中被用作基准数据集，验证了其在蛋白质功能预测和结构分析中的有效性。
2018年
ENZYMES数据集的扩展版本发布，增加了更多的蛋白质结构数据，以适应日益复杂的生物信息学研究需求。
2020年

常用场景

经典使用场景

在生物信息学领域，ENZYMES数据集被广泛用于研究蛋白质结构与功能的关系。该数据集包含了600种不同的酶，每种酶都以图的形式表示，节点代表氨基酸残基，边代表残基间的相互作用。通过分析这些图结构，研究人员可以预测酶的催化活性、稳定性及其在生物体内的功能。

解决学术问题

ENZYMES数据集为解决蛋白质结构预测和功能注释提供了宝贵的资源。通过机器学习和图神经网络技术，研究人员能够从复杂的蛋白质结构中提取特征，进而预测酶的催化特性和生物学功能。这不仅推动了蛋白质工程和药物设计的发展，还为理解生命过程的分子机制提供了新的视角。

实际应用

在实际应用中，ENZYMES数据集被用于开发高效的酶设计工具和药物筛选平台。例如，制药公司利用该数据集训练模型，以快速识别具有特定催化活性的酶，从而加速新药的研发过程。此外，生物技术公司也利用这些数据进行酶的定向进化，以提高工业酶的性能和稳定性。

数据集最近研究