five

EnzymeCAGE Dataset

收藏
github2024-12-04 更新2024-12-11 收录
下载链接:
https://github.com/GENTEL-lab/EnzymeCAGE
下载链接
链接失效反馈
官方服务:
资源简介:
EnzymeCAGE数据集包含酶的CSV格式数据和AlphaFold2结构,用于模型训练和推理。数据集包括预提取的酶口袋数据,用户可以直接使用或重新运行AlphaFill来提取口袋数据。

The EnzymeCAGE Dataset comprises CSV-format enzyme data and AlphaFold2 structures for model training and inference. It includes pre-extracted enzyme pocket data, which users can directly utilize or re-run AlphaFill to extract.
创建时间:
2024-11-24
原始信息汇总

EnzymeCAGE: A Geometric Foundation Model for Enzyme Retrieval with Evolutionary Insights

数据集概述

EnzymeCAGE 数据集用于酶检索的几何基础模型,结合进化洞察。数据集包括酶的口袋信息和反应特征,支持模型训练、推理和性能评估。

数据集使用

选项1:直接使用预提取的口袋

  • 预提取的酶口袋数据位于 ./dataset/pocket/alphafill_8A
  • 为了提高运行速度,AlphaFill 的同源蛋白查询数量设置为5(默认200)。

选项2:重新运行 AlphaFill 提取口袋

  • 步骤1:获取酶的 CIF 格式结构

    • 如果数据集仅包含蛋白质序列,需获取结构信息(推荐 CIF 格式)。
    • 可选择本地部署 colabfold 或在线运行 AlphaFold2
  • 步骤2:部署 AlphaFill

    • 下载 PDB-REDO 数据库: shell cd dataset/PDB-REDO rsync -av --exclude=attic rsync://rsync.pdb-redo.eu/pdb-redo/ pdb-redo/

    • 下载并部署 AlphaFill: shell cd feature/pkgs git clone https://github.com/PDB-REDO/alphafill.git cp ../../scripts/run_alphafill ./alphafill cd alphafill

    • 按照 教程 设置环境。

  • 步骤3:运行 AlphaFill

    • 运行 run_alphafill.py 提取口袋: shell python run_alphafill.py --input_dir {CIF_DIR} # 包含 CIF 文件的文件夹 --output_dir {OUT_DIR} # 提取口袋的输出文件夹 --pdb_fasta {FASTA_PATH} # 位于 dataset/PDB-RED/pdbredo_seqdb.txt --pdb_redo_dir {PDB_REDO_DIR} # 位于 dataset/PDB-REDO/pdb-redo/

数据集特征

  • 酶和反应的特征准备。

模型训练

  • 配置模型训练。

推理

  • 对候选酶进行推理和排名。
搜集汇总
数据集介绍
main_image_url
构建方式
EnzymeCAGE数据集的构建基于酶的几何结构和进化信息,通过AlphaFill工具提取酶的催化口袋。首先,数据集包含了酶的CIF格式结构信息,这些结构信息通过AlphaFold2生成。随后,AlphaFill工具被用于从这些结构中提取催化口袋,确保了数据集的几何精确性。为了提高运行效率,AlphaFill的同源蛋白质查询数量被限制为5。这一过程不仅确保了数据集的高质量,还为后续的模型训练和推理提供了坚实的基础。
特点
EnzymeCAGE数据集的显著特点在于其结合了酶的几何结构和进化信息,提供了高质量的催化口袋数据。这些数据不仅精确地反映了酶的结构特征,还通过AlphaFill工具的处理,确保了数据的可靠性和一致性。此外,数据集提供了两种使用方式:直接使用预提取的催化口袋数据,或自行运行AlphaFill工具进行提取。这种灵活性使得数据集能够适应不同的研究需求和实验条件。
使用方法
使用EnzymeCAGE数据集时,用户可以选择直接使用预提取的催化口袋数据,这些数据位于`./dataset/pocket/alphafill_8A`目录下,便于快速复现实验结果。若需自定义数据处理,用户可通过运行AlphaFill工具自行提取催化口袋。首先,获取酶的CIF格式结构信息,然后部署AlphaFill工具并运行相关脚本。通过这种方式,用户可以为模型训练或推理准备所需的数据特征,从而实现对酶反应的精确检索和排名。
背景与挑战
背景概述
酶工程领域近年来在生物技术和药物开发中展现出巨大的潜力,尤其是在酶的结构与功能关系研究方面。EnzymeCAGE数据集由一支专注于酶检索与进化洞察的研究团队创建,旨在通过几何基础模型来解决酶检索中的关键问题。该数据集整合了酶的结构信息与催化口袋的特征,利用AlphaFold2生成的结构数据,结合AlphaFill工具提取的催化口袋信息,构建了一个全面的酶检索框架。这一数据集的创建不仅为酶工程研究提供了新的工具,还为理解酶的进化机制提供了重要线索,推动了酶设计与优化的前沿研究。
当前挑战
EnzymeCAGE数据集在构建过程中面临多项挑战。首先,酶的结构信息获取与催化口袋的精确提取是技术难点,依赖于AlphaFold2和AlphaFill等先进工具,这些工具的部署与运行需要较高的计算资源与时间成本。其次,数据集的多样性与覆盖范围也是一个挑战,确保数据集包含足够多的酶种类及其进化信息,以支持广泛的酶检索任务。此外,模型训练与推理过程中的性能评估,尤其是如何在候选酶中进行有效排序,也是该数据集面临的重要挑战。
常用场景
经典使用场景
EnzymeCAGE数据集在酶检索领域展现了其卓越的应用潜力。通过结合几何学基础模型与进化信息,该数据集能够高效地检索与特定反应匹配的候选酶。其经典使用场景包括:首先,利用AlphaFill工具从酶的结构中提取催化口袋信息;其次,通过预处理酶和反应的特征,训练模型以实现酶的检索、推理和排名;最后,评估模型的性能以确保其准确性和可靠性。这一流程不仅提升了酶检索的效率,还为酶工程和药物设计提供了强有力的支持。
解决学术问题
EnzymeCAGE数据集在解决酶学领域的多个学术问题上展现了显著的贡献。首先,它通过几何学模型和进化信息,解决了酶检索中结构与功能匹配的难题,为酶的精确检索提供了新的方法。其次,该数据集通过预处理和特征提取,解决了酶与反应之间复杂关系的建模问题,为酶反应动力学的研究提供了新的视角。此外,通过模型的训练和评估,该数据集还解决了酶检索系统中模型泛化能力和预测准确性的问题,推动了酶学研究的深入发展。
衍生相关工作
EnzymeCAGE数据集的发布催生了一系列相关的经典工作。首先,基于该数据集的几何学模型和进化信息,研究者们开发了多种酶检索算法,显著提升了酶检索的准确性和效率。其次,该数据集为酶反应动力学的研究提供了新的数据支持,推动了酶反应机理的深入探索。此外,基于EnzymeCAGE的特征提取和模型训练方法,研究者们还开发了多种酶工程和药物设计的自动化工具,为相关领域的研究提供了强有力的技术支持。这些衍生工作不仅丰富了酶学研究的理论体系,还为实际应用提供了新的技术手段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作