Reactzyme

Name: Reactzyme
Creator: 麦吉尔大学; 上海交通大学; Mila; 蒙特利尔大学; DeepMind; Aureka
Published: 2024-08-25 03:19:33
License: 暂无描述

arXiv2024-08-25 更新2024-08-28 收录

下载链接：

https://zenodo.org/records/11494913

下载链接

链接失效反馈

官方服务：

资源简介：

Reactzyme数据集由麦吉尔大学和上海交通大学等机构创建，专门用于酶反应预测。该数据集包含178,463条酶反应对，来源于SwissProt和Rhea数据库，提供了详细的酶功能和反应信息。数据集的创建过程包括从数据库中筛选和排除非特定分子，保留关键的酶和反应信息。Reactzyme数据集主要应用于生物信息学和酶工程领域，旨在提高酶功能的预测准确性和促进相关科学研究及工业应用。

The Reactzyme dataset was created by institutions including McGill University and Shanghai Jiao Tong University, and is specifically designed for enzyme reaction prediction. It contains 178,463 enzyme reaction pairs sourced from the SwissProt and Rhea databases, and provides detailed information on enzyme functions and reactions. The dataset's creation process includes screening and excluding non-specific molecules from the databases, while retaining key enzyme and reaction information. The Reactzyme dataset is mainly applied in the fields of bioinformatics and enzyme engineering, aiming to improve the prediction accuracy of enzyme functions and promote relevant scientific research and industrial applications.

提供机构：

麦吉尔大学; 上海交通大学; Mila; 蒙特利尔大学; DeepMind; Aureka

创建时间：

2024-08-25

搜集汇总

数据集介绍

构建方式

Reactzyme数据集的构建方式是将SwissProt和Rhea数据库中的数据整合起来，这两个数据库分别提供了高质量的蛋白质序列功能注释和详细的生化反应描述。Reactzyme数据集包含了178,463个酶-反应对，包括178,327个独特的酶和7,726个独特的反应。数据收集截止到2024年1月8日，确保了数据的新颖性和全面性。

特点

Reactzyme数据集的特点在于其庞大的规模和详尽的反应描述。它提供了比其他类似数据集更多的数据，使得模型可以学习到更复杂的酶-反应关系。Reactzyme数据集还采用了多种数据划分方式，包括基于时间、酶相似度和反应相似度，使得数据集更加灵活和多样化。此外，Reactzyme数据集还采用了多视图反应表示方法，结合了字符串和图表示，能够更全面地捕捉反应的结构和功能信息。

使用方法

Reactzyme数据集的使用方法包括酶反应预测和反应酶预测。在酶反应预测中，模型需要根据给定的酶来预测其可能催化的反应；在反应酶预测中，模型需要根据给定的反应来预测可能催化该反应的酶。Reactzyme数据集还提供了多种性能评估指标，包括Top-k Accuracy、Mean Rank和MRR，可以用来评估模型在酶反应预测任务上的性能。

背景与挑战

背景概述

酶作为生物系统的催化剂，在生命活动的各个方面都发挥着重要作用，加速和调节着从简单细菌到复杂哺乳动物体内的几乎所有化学过程和代谢途径。预测酶的功能对于理解生物通路、指导药物开发、提高生物产品产量以及促进进化研究至关重要。Reactzyme数据集由Chenqing Hua等人在2024年1月8日发布，旨在提供一个用于酶反应预测的基准数据集。该数据集基于SwissProt和Rhea数据库，包含了截至2024年1月8日的所有数据条目，为酶反应预测提供了迄今为止最大的数据集。Reactzyme数据集将酶反应预测视为一个检索问题，旨在根据酶对特定反应的催化能力对酶进行排序，从而帮助招募蛋白质进行新反应，并预测新蛋白质的反应，促进酶的发现和功能注释。

当前挑战

Reactzyme数据集和相关研究面临的挑战包括：1)酶反应预测的领域问题，即如何准确预测酶对特定反应的催化能力；2)构建过程中所遇到的挑战，如数据集缺乏原子映射数据，反应数量较少，以及可能无法涵盖蛋白质和反应空间的所有方面。此外，构建负样本也是一个未解决的挑战，需要进一步开发。

常用场景

经典使用场景

Reactzyme 数据集主要用于研究酶与催化反应之间的关系，通过机器学习算法分析酶反应数据，为理解酶的功能性提供更为精细的视角。其经典使用场景包括预测酶对特定反应的催化能力，为新发现的反应招募蛋白质，以及预测新蛋白质的反应。

实际应用

Reactzyme 数据集在实际应用场景中具有广泛的应用前景，如生物合成、合成生物学、生物修复和蛋白质进化等领域。例如，在生物合成中，酶帮助生产复杂的有机分子；在合成生物学中，酶被设计用来创建新的生物途径；在生物修复中，酶可以分解污染物；在蛋白质进化中，通过分析酶的功能可以增强对代谢网络进化过程的理解。

衍生相关工作

Reactzyme 数据集衍生了许多相关的研究工作，如基于序列相似性的酶功能预测、基于结构相似性的酶功能预测以及基于机器学习和深度学习的酶功能预测等。这些研究工作为酶功能预测提供了新的思路和方法，有助于更准确地理解酶的功能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集