CARE

Name: CARE
Creator: 加州理工学院
Published: 2024-06-22 06:01:05
License: 暂无描述

arXiv2024-06-22 更新2024-06-26 收录

下载链接：

https://github.com/jsunn-y/CARE/

下载链接

链接失效反馈

官方服务：

资源简介：

CARE是由加州理工学院创建的一个用于酶分类和检索的基准数据集。该数据集包含高质量的酶和反应数据，以及它们关联的酶委员会（EC）编号，旨在通过机器学习方法评估和预测酶的功能。CARE数据集通过两个主要任务来评估模型：酶序列的分类和基于反应的酶检索。这些任务模拟了实际应用中的挑战，如未见过的蛋白质序列和未注释的反应。CARE数据集的创建过程涉及从多个数据库中提取和整理数据，确保数据的质量和可用性。该数据集的应用领域广泛，包括生物修复、塑料降解、基因编辑和药物合成等，旨在解决酶功能预测和设计中的关键问题。

CARE is a benchmark dataset for enzyme classification and retrieval developed by the California Institute of Technology. It contains high-quality enzyme and reaction data alongside their associated Enzyme Commission (EC) numbers, with the goal of evaluating and predicting enzyme functions via machine learning methods. The CARE benchmark assesses models through two core tasks: enzyme sequence classification and reaction-based enzyme retrieval. These tasks simulate real-world challenges such as unseen protein sequences and unannotated reactions. The creation of the CARE dataset involves extracting and curating data from multiple databases to ensure data quality and usability. This dataset has broad applications across areas including bioremediation, plastic degradation, gene editing, and pharmaceutical synthesis, and is designed to address critical challenges in enzyme function prediction and design.

提供机构：

加州理工学院

创建时间：

2024-06-22

搜集汇总

数据集介绍

构建方式

CARE数据集的构建主要围绕两个任务：根据酶委员会（EC）编号对蛋白质序列进行分类（任务1）和在给定化学反应的情况下检索EC编号（任务2）。为了评估不同类型的分布外泛化，我们对每个任务设计了训练-测试分割。对于分类任务，我们提供了最先进方法的基线。由于检索任务之前尚未形式化，我们提出了一个名为对比反应-酶预训练（CREEP）的方法，作为该任务的第一个基线之一。CARE数据集可在https://github.com/jsunn-y/CARE/上获得。

特点

CARE数据集的特点在于其针对性和实用性。它包含了高质量的酶、反应和它们相关EC编号的数据集，并提供了训练-测试分割，以模拟现实世界使用案例中的挑战性外推。此外，CARE是第一个为这些任务提供标准化基准的数据集，其中包括状态-of-the-art模型的基准，以及CREEP作为检索任务的第一个基线。

使用方法

使用CARE数据集的方法涉及两个主要任务：酶分类和酶检索。对于每个任务，都提供了特定领域的训练-测试分割。模型训练可以使用训练分割中的任何数据，并且每个模型都在相应的测试分割上进行评估。CARE还提供了最先进模型的基准，以及CREEP作为检索任务的第一个基线。CARE数据集和分割可通过https://github.com/jsunn-y/CARE/访问。

背景与挑战

背景概述

CARE数据集，全称为Classification And Retrieval of Enzymes，是由加州理工学院化学与化学工程系、计算与数学科学系以及微软公司首席科学官办公室的研究人员共同创建的。该数据集的创建时间为2024年，旨在解决机器学习方法预测酶功能的评估问题。CARE数据集的核心研究问题包括：1)根据蛋白质序列的酶委员会（EC）编号对蛋白质序列进行分类；2)根据化学反应检索相应的EC编号。该数据集对相关领域的影响力在于，它为机器学习模型在酶功能预测方面的评估提供了一个标准化的基准，有助于推动酶功能预测模型的改进和发展。

当前挑战

CARE数据集面临的挑战包括：1)酶分类任务的挑战，如何提高模型对未见蛋白质序列的泛化能力；2)酶检索任务的挑战，如何提高模型对未见化学反应的泛化能力。此外，构建过程中遇到的挑战还包括：如何设计训练-测试分割以模拟现实世界使用案例中的挑战性泛化；如何提供高质量的、易于使用的酶、反应和它们相关EC编号的数据集；以及如何为酶功能预测模型提供基准。

常用场景

经典使用场景

CARE数据集主要面向蛋白质序列的功能预测和酶的检索任务。它包含了两个核心任务：根据蛋白质序列的分类酶委员会(EC)编号以及给定化学反应检索EC编号。这些任务模拟了现实世界中科学家和工程师的需求，例如在环境生物学中确定微生物群落的代谢途径，或者在药物合成中寻找替代催化剂。

衍生相关工作

CARE数据集的发布促进了相关研究的发展。例如，CLIPZyme模型利用了CARE数据集中的反应和蛋白质结构信息，展示了跨模态对齐在酶检索任务中的潜力。此外，CREEP模型作为CARE数据集的一部分，为基于反应的酶检索任务提供了第一个基线模型，并展示了使用文本描述进行对齐的有效性。这些工作为进一步探索多模态学习在蛋白质功能预测中的应用奠定了基础。

数据集最近研究