EnzymeCAGE Dataset

github2024-12-04 更新2024-12-11 收录

下载链接：

https://github.com/GENTEL-lab/EnzymeCAGE

下载链接

链接失效反馈

官方服务：

资源简介：

EnzymeCAGE数据集包含酶的CSV格式数据和AlphaFold2结构，用于模型训练和推理。数据集包括预提取的酶口袋数据，用户可以直接使用或重新运行AlphaFill来提取口袋数据。

The EnzymeCAGE Dataset comprises CSV-format enzyme data and AlphaFold2 structures for model training and inference. It includes pre-extracted enzyme pocket data, which users can directly utilize or re-run AlphaFill to extract.

创建时间：

2024-11-24

原始信息汇总

EnzymeCAGE: A Geometric Foundation Model for Enzyme Retrieval with Evolutionary Insights

数据集概述

EnzymeCAGE 数据集用于酶检索的几何基础模型，结合进化洞察。数据集包括酶的口袋信息和反应特征，支持模型训练、推理和性能评估。

数据集使用

选项1：直接使用预提取的口袋

预提取的酶口袋数据位于 ./dataset/pocket/alphafill_8A。
为了提高运行速度，AlphaFill 的同源蛋白查询数量设置为5（默认200）。

选项2：重新运行 AlphaFill 提取口袋

步骤1：获取酶的 CIF 格式结构
- 如果数据集仅包含蛋白质序列，需获取结构信息（推荐 CIF 格式）。
- 可选择本地部署 colabfold 或在线运行 AlphaFold2。
步骤2：部署 AlphaFill
- 下载 PDB-REDO 数据库： shell cd dataset/PDB-REDO rsync -av --exclude=attic rsync://rsync.pdb-redo.eu/pdb-redo/ pdb-redo/
- 下载并部署 AlphaFill： shell cd feature/pkgs git clone https://github.com/PDB-REDO/alphafill.git cp ../../scripts/run_alphafill ./alphafill cd alphafill
- 按照教程设置环境。
步骤3：运行 AlphaFill
- 运行 run_alphafill.py 提取口袋： shell python run_alphafill.py --input_dir {CIF_DIR} # 包含 CIF 文件的文件夹 --output_dir {OUT_DIR} # 提取口袋的输出文件夹 --pdb_fasta {FASTA_PATH} # 位于 dataset/PDB-RED/pdbredo_seqdb.txt --pdb_redo_dir {PDB_REDO_DIR} # 位于 dataset/PDB-REDO/pdb-redo/

数据集特征

酶和反应的特征准备。

模型训练

配置模型训练。

推理

对候选酶进行推理和排名。

搜集汇总

数据集介绍

构建方式

EnzymeCAGE数据集的构建基于酶的几何结构和进化信息，通过AlphaFill工具提取酶的催化口袋。首先，数据集包含了酶的CIF格式结构信息，这些结构信息通过AlphaFold2生成。随后，AlphaFill工具被用于从这些结构中提取催化口袋，确保了数据集的几何精确性。为了提高运行效率，AlphaFill的同源蛋白质查询数量被限制为5。这一过程不仅确保了数据集的高质量，还为后续的模型训练和推理提供了坚实的基础。

特点

EnzymeCAGE数据集的显著特点在于其结合了酶的几何结构和进化信息，提供了高质量的催化口袋数据。这些数据不仅精确地反映了酶的结构特征，还通过AlphaFill工具的处理，确保了数据的可靠性和一致性。此外，数据集提供了两种使用方式：直接使用预提取的催化口袋数据，或自行运行AlphaFill工具进行提取。这种灵活性使得数据集能够适应不同的研究需求和实验条件。

使用方法

使用EnzymeCAGE数据集时，用户可以选择直接使用预提取的催化口袋数据，这些数据位于`./dataset/pocket/alphafill_8A`目录下，便于快速复现实验结果。若需自定义数据处理，用户可通过运行AlphaFill工具自行提取催化口袋。首先，获取酶的CIF格式结构信息，然后部署AlphaFill工具并运行相关脚本。通过这种方式，用户可以为模型训练或推理准备所需的数据特征，从而实现对酶反应的精确检索和排名。

背景与挑战

背景概述

酶工程领域近年来在生物技术和药物开发中展现出巨大的潜力，尤其是在酶的结构与功能关系研究方面。EnzymeCAGE数据集由一支专注于酶检索与进化洞察的研究团队创建，旨在通过几何基础模型来解决酶检索中的关键问题。该数据集整合了酶的结构信息与催化口袋的特征，利用AlphaFold2生成的结构数据，结合AlphaFill工具提取的催化口袋信息，构建了一个全面的酶检索框架。这一数据集的创建不仅为酶工程研究提供了新的工具，还为理解酶的进化机制提供了重要线索，推动了酶设计与优化的前沿研究。

当前挑战

EnzymeCAGE数据集在构建过程中面临多项挑战。首先，酶的结构信息获取与催化口袋的精确提取是技术难点，依赖于AlphaFold2和AlphaFill等先进工具，这些工具的部署与运行需要较高的计算资源与时间成本。其次，数据集的多样性与覆盖范围也是一个挑战，确保数据集包含足够多的酶种类及其进化信息，以支持广泛的酶检索任务。此外，模型训练与推理过程中的性能评估，尤其是如何在候选酶中进行有效排序，也是该数据集面临的重要挑战。

常用场景

经典使用场景

EnzymeCAGE数据集在酶检索领域展现了其卓越的应用潜力。通过结合几何学基础模型与进化信息，该数据集能够高效地检索与特定反应匹配的候选酶。其经典使用场景包括：首先，利用AlphaFill工具从酶的结构中提取催化口袋信息；其次，通过预处理酶和反应的特征，训练模型以实现酶的检索、推理和排名；最后，评估模型的性能以确保其准确性和可靠性。这一流程不仅提升了酶检索的效率，还为酶工程和药物设计提供了强有力的支持。

解决学术问题

EnzymeCAGE数据集在解决酶学领域的多个学术问题上展现了显著的贡献。首先，它通过几何学模型和进化信息，解决了酶检索中结构与功能匹配的难题，为酶的精确检索提供了新的方法。其次，该数据集通过预处理和特征提取，解决了酶与反应之间复杂关系的建模问题，为酶反应动力学的研究提供了新的视角。此外，通过模型的训练和评估，该数据集还解决了酶检索系统中模型泛化能力和预测准确性的问题，推动了酶学研究的深入发展。

衍生相关工作

EnzymeCAGE数据集的发布催生了一系列相关的经典工作。首先，基于该数据集的几何学模型和进化信息，研究者们开发了多种酶检索算法，显著提升了酶检索的准确性和效率。其次，该数据集为酶反应动力学的研究提供了新的数据支持，推动了酶反应机理的深入探索。此外，基于EnzymeCAGE的特征提取和模型训练方法，研究者们还开发了多种酶工程和药物设计的自动化工具，为相关领域的研究提供了强有力的技术支持。这些衍生工作不仅丰富了酶学研究的理论体系，还为实际应用提供了新的技术手段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集