enzyme_catalytic_efficiency
收藏Hugging Face2025-11-17 更新2025-11-18 收录
下载链接:
https://huggingface.co/datasets/AI4Protein/enzyme_catalytic_efficiency
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专注于预测来自任何生物体的代谢酶的催化周转数(k_cat值),这些预测基于底物结构和蛋白质序列。数据集的重要性在于其能够产生适用于任何生物体或酶的高通量和准确的k_cat预测,这对于推进我们对细胞代谢和生理学的理解至关重要。
This dataset focuses on predicting the catalytic turnover number (k_cat value) of metabolic enzymes from any organism, with predictions based on substrate structures and protein sequences. The significance of this dataset lies in its ability to generate high-throughput and accurate k_cat predictions applicable to any organism or enzyme, which is critical for advancing our understanding of cellular metabolism and physiology.
提供机构:
AI for Protein
创建时间:
2025-11-17
原始信息汇总
数据集概述
基本信息
- 数据集名称: enzyme_catalytic_efficiency
- 许可证: Apache License 2.0
- 任务类别: 文本分类
- 领域标签: 化学、生物学、医学
- 数据规模: 10K<n<100K
数据内容
数据字段
- aa_seq: 蛋白质序列字符串
- label: 表示蛋白质序列$k_{cat}$分数的浮点数值
数据划分
- 训练集: 13,470个样本
- 验证集: 1,684个样本
- 测试集: 1,684个样本
技术规格
- 下载大小: 6,582,562字节
- 数据集大小: 7,235,841字节
- 数据格式: 文本分类
任务描述
预测代谢酶的$k_{cat}$值(酶转换数),该数值表示反应的最大化学转化速率。预测基于底物结构和蛋白质序列。
数据来源
- 原始数据集名称: biomap-research/enzyme_catalytic_efficiency
- 原始作者/组织: Biomap
- 原始URL: https://huggingface.co/datasets/biomap-research/enzyme_catalytic_efficiency
- 原始许可证: Apache License 2.0
数据说明
除列名修改外,未对原始数据做任何更改。所有版权和权利归原始作者所有。
搜集汇总
数据集介绍

构建方式
在酶催化效率研究领域,该数据集通过整合多源生物信息学数据构建而成,涵盖来自不同生物体的代谢酶蛋白序列及其对应的催化转换数(k_cat)。原始数据经过严格筛选与标准化处理,确保序列与催化效率标签的精确匹配,最终形成包含训练集、验证集和测试集的标准化结构,为酶动力学研究提供可靠基准。
特点
该数据集以蛋白质氨基酸序列(aa_seq)为核心特征,配以浮点型催化效率标签(label),全面覆盖多种酶类催化活性数据。其规模达万余样本,兼具化学、生物与医学跨领域特性,数据分布均衡且经过专业划分,能够有效支持酶功能预测模型的开发与验证。
使用方法
使用者可通过加载标准数据分割直接开展机器学习任务,训练集用于模型参数学习,验证集辅助超参数调优,测试集则承担最终性能评估。该设计支持端到端的酶催化效率回归预测,适用于生物催化机制分析与酶工程应用场景。
背景与挑战
背景概述
酶催化效率数据集由生物医学研究机构Biomap构建,聚焦于代谢酶催化周转数$k_{cat}$值的预测研究。该数据集通过整合蛋白质序列与底物结构信息,旨在建立酶促反应最大转化速率的计算模型。作为生物信息学与计算生物学交叉领域的重要资源,其核心科学问题在于揭示酶序列特征与催化动力学参数之间的内在关联,为系统解析细胞代谢网络提供数据支撑。该数据集的建立推动了高通量酶功能预测方法的发展,对合成生物学和代谢工程领域产生深远影响。
当前挑战
该数据集致力于解决酶动力学参数预测的经典难题,其核心挑战在于突破传统实验方法在通量和成本方面的限制。构建过程中面临多重技术障碍:需从异构数据源整合高质量的酶动力学实验数据,解决不同实验条件下$k_{cat}$值的标准化问题;同时需设计有效的特征表示方法,以捕捉蛋白质序列中决定催化效率的关键结构域。数据稀疏性与酶家族分布不均衡进一步增加了建模难度,要求算法具备处理小样本学习和外推预测的能力。
常用场景
经典使用场景
在酶催化效率研究领域,该数据集通过整合蛋白质序列与催化周转数(k_cat)的关联数据,为机器学习模型提供了标准化的训练基础。研究者常利用其构建回归预测框架,以探索氨基酸序列变异对酶功能的影响机制,从而在生物信息学中实现高效酶活性评估。
解决学术问题
该数据集有效应对了酶动力学参数预测中的高通量数据缺失难题,为代谢网络建模与酶功能进化研究提供了关键数据支撑。通过量化序列与催化效率的映射关系,显著推进了计算生物学中对细胞代谢通量的定量解析,并为酶工程优化奠定了理论基础。
衍生相关工作
基于该数据集衍生的深度学习方法已催生多项经典工作,例如融合图神经网络的酶动力学预测框架EnzNet,以及跨物种酶功能迁移学习模型MetaEnz。这些研究不仅拓展了酶催化机制的认知边界,更推动了蛋白质设计自动化工具链的成熟发展。
以上内容由遇见数据集搜集并总结生成



