CARE|酶分类数据集|机器学习数据集

arXiv2024-06-22 更新2024-06-26 收录

酶分类

机器学习

下载链接：

https://github.com/jsunn-y/CARE/

下载链接

链接失效反馈

资源简介：

CARE是由加州理工学院创建的一个用于酶分类和检索的基准数据集。该数据集包含高质量的酶和反应数据，以及它们关联的酶委员会（EC）编号，旨在通过机器学习方法评估和预测酶的功能。CARE数据集通过两个主要任务来评估模型：酶序列的分类和基于反应的酶检索。这些任务模拟了实际应用中的挑战，如未见过的蛋白质序列和未注释的反应。CARE数据集的创建过程涉及从多个数据库中提取和整理数据，确保数据的质量和可用性。该数据集的应用领域广泛，包括生物修复、塑料降解、基因编辑和药物合成等，旨在解决酶功能预测和设计中的关键问题。

提供机构：

加州理工学院

创建时间：

2024-06-22

AI搜集汇总

数据集介绍

构建方式

CARE数据集的构建主要围绕两个任务：根据酶委员会（EC）编号对蛋白质序列进行分类（任务1）和在给定化学反应的情况下检索EC编号（任务2）。为了评估不同类型的分布外泛化，我们对每个任务设计了训练-测试分割。对于分类任务，我们提供了最先进方法的基线。由于检索任务之前尚未形式化，我们提出了一个名为对比反应-酶预训练（CREEP）的方法，作为该任务的第一个基线之一。CARE数据集可在https://github.com/jsunn-y/CARE/上获得。

特点

CARE数据集的特点在于其针对性和实用性。它包含了高质量的酶、反应和它们相关EC编号的数据集，并提供了训练-测试分割，以模拟现实世界使用案例中的挑战性外推。此外，CARE是第一个为这些任务提供标准化基准的数据集，其中包括状态-of-the-art模型的基准，以及CREEP作为检索任务的第一个基线。

使用方法

使用CARE数据集的方法涉及两个主要任务：酶分类和酶检索。对于每个任务，都提供了特定领域的训练-测试分割。模型训练可以使用训练分割中的任何数据，并且每个模型都在相应的测试分割上进行评估。CARE还提供了最先进模型的基准，以及CREEP作为检索任务的第一个基线。CARE数据集和分割可通过https://github.com/jsunn-y/CARE/访问。

背景与挑战

背景概述

CARE数据集，全称为Classification And Retrieval of Enzymes，是由加州理工学院化学与化学工程系、计算与数学科学系以及微软公司首席科学官办公室的研究人员共同创建的。该数据集的创建时间为2024年，旨在解决机器学习方法预测酶功能的评估问题。CARE数据集的核心研究问题包括：1)根据蛋白质序列的酶委员会（EC）编号对蛋白质序列进行分类；2)根据化学反应检索相应的EC编号。该数据集对相关领域的影响力在于，它为机器学习模型在酶功能预测方面的评估提供了一个标准化的基准，有助于推动酶功能预测模型的改进和发展。

当前挑战

CARE数据集面临的挑战包括：1)酶分类任务的挑战，如何提高模型对未见蛋白质序列的泛化能力；2)酶检索任务的挑战，如何提高模型对未见化学反应的泛化能力。此外，构建过程中遇到的挑战还包括：如何设计训练-测试分割以模拟现实世界使用案例中的挑战性泛化；如何提供高质量的、易于使用的酶、反应和它们相关EC编号的数据集；以及如何为酶功能预测模型提供基准。

常用场景

经典使用场景

CARE数据集主要面向蛋白质序列的功能预测和酶的检索任务。它包含了两个核心任务：根据蛋白质序列的分类酶委员会(EC)编号以及给定化学反应检索EC编号。这些任务模拟了现实世界中科学家和工程师的需求，例如在环境生物学中确定微生物群落的代谢途径，或者在药物合成中寻找替代催化剂。

衍生相关工作

CARE数据集的发布促进了相关研究的发展。例如，CLIPZyme模型利用了CARE数据集中的反应和蛋白质结构信息，展示了跨模态对齐在酶检索任务中的潜力。此外，CREEP模型作为CARE数据集的一部分，为基于反应的酶检索任务提供了第一个基线模型，并展示了使用文本描述进行对齐的有效性。这些工作为进一步探索多模态学习在蛋白质功能预测中的应用奠定了基础。

数据集最近研究

相关研究论文

1
CARE: a Benchmark Suite for the Classification and Retrieval of Enzymes加州理工学院 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集：Houston2013（高光谱和多光谱数据）、Berlin（高光谱和合成孔径雷达数据）和Augsburg（高光谱、合成孔径雷达和数字表面模型数据）。这些数据集用于土地覆盖分类，旨在通过共享和特定特征学习模型（S2FL）评估多模态基线。数据集包含不同模态和分辨率的图像，适用于评估和开发新的遥感图像处理技术。

arXiv 收录