enzyme_kcat

Name: enzyme_kcat
Creator: Gleghorn Lab
Published: 2024-09-22 03:21:12
License: 暂无描述

Hugging Face2024-09-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/enzyme_kcat

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含酶的序列和其催化效率的标签。序列（'seqs'）是字符串类型，标签（'labels'）是经过log10归一化的float64类型，单位为log10(1/s)。数据集分为训练集、验证集和测试集，分别包含6837、498和469个样本。数据集来源于DLKcat，已经去除了重复和短序列，并且酶的多反应kcat值被平均化。

This dataset contains enzyme sequences and labels corresponding to their catalytic efficiency. The sequences (denoted as 'seqs') are of string type, while the labels (denoted as 'labels') are log10-normalized float64 values with the unit of log10(1/s). The dataset is split into training, validation, and test sets, which contain 6837, 498, and 469 samples respectively. This dataset is sourced from DLKcat, where redundant and short sequences have been removed, and the multi-reaction kcat values of enzymes have been averaged.

提供机构：

Gleghorn Lab

创建时间：

2024-09-22

原始信息汇总

数据集概述

数据集信息

特征:
- seqs: 序列数据，类型为字符串 (string)
- labels: 标签数据，类型为浮点数 (float64)
分割:
- train: 训练集，包含6837个样本，占用2933951字节
- valid: 验证集，包含498个样本，占用217038字节
- test: 测试集，包含469个样本，占用204262字节
下载大小: 2178499字节
数据集总大小: 3355251字节

配置

配置名称: default
- 数据文件路径:
  - train: data/train-*
  - valid: data/valid-*
  - test: data/test-*

数据处理

数据来源:
- 数据集来源于DLKcat，包含BRENDA和SABIO-RK数据库的数据。
- 数据分割来自Biomap，并移除了重复和短序列。
- 具有多个反应的酶的kcat值被平均化。
kcat值:
- kcat值经过log10归一化处理，单位为log10(1/s)。
- 由于kcat值在反应中被平均化且存在反应模糊性，因此它只是一个催化速率的通用代理，数值越高表示催化速率越快。

数据处理代码

python import pandas as pd from datasets import Dataset, DatasetDict, concatenate_datasets

def process_dataset(dataset_dict): precedence = [train, valid, test] # 为每个数据集添加split列 for split in dataset_dict.keys(): dataset_dict[split] = dataset_dict[split].add_column(split, [split]*len(dataset_dict[split])) # 将所有分割合并为一个数据集 all_data = concatenate_datasets([dataset_dict[split] for split in dataset_dict.keys()]) # 转换为pandas DataFrame df = all_data.to_pandas() # 移除长度小于50的序列 df[seq_length] = df[seqs].apply(len) df = df[df[seq_length] >= 50] # 按seqs分组以查找重复项并平均标签 def aggregate_group(group): avg_label = group[labels].mean() # 将序列分配到其出现的最高优先级分割 for p in precedence: if p in group[split].values: selected_split = p break return pd.Series({labels: avg_label, split: selected_split}) df_grouped = df.groupby(seqs).apply(aggregate_group).reset_index() # 将DataFrame拆分为原始分割，且不包含重叠序列 new_dataset_dict = DatasetDict() for split in precedence: df_split = df_grouped[df_grouped[split] == split] new_dataset_dict[split] = Dataset.from_pandas(df_split[[seqs, labels]], preserve_index=False) return new_dataset_dict

搜集汇总

数据集介绍

构建方式

enzyme_kcat数据集的构建基于DLKcat项目，整合了BRENDA和SABIO-RK数据库中的酶催化效率数据，并通过Biomap数据集的分割进行处理。在数据预处理阶段，重复序列和短序列被移除，同时对于具有多个反应的酶，其kcat值进行了平均处理。kcat值经过log10归一化处理，单位为log10(1/s)，作为酶催化速率的一般代理指标。数据集进一步通过Python脚本进行清洗和分割，确保序列长度不小于50，并按训练集、验证集和测试集进行划分。

使用方法

使用enzyme_kcat数据集时，用户可以通过Hugging Face的datasets库加载数据，并按照提供的Python脚本进行预处理。数据集已按训练集、验证集和测试集划分，用户可以直接使用这些分割进行模型训练和评估。预处理脚本中包含了序列长度过滤和kcat值平均化的步骤，用户可以根据需要调整这些参数。此外，数据集支持转换为Pandas DataFrame格式，便于进一步的数据分析和处理。通过该数据集，用户可以构建和评估酶催化速率预测模型，推动酶工程和生物催化领域的研究。

背景与挑战

背景概述

酶催化效率（kcat）是生物化学和酶工程领域中的一个关键参数，用于描述酶在单位时间内催化底物转化为产物的能力。enzyme_kcat数据集由SysBioChalmers团队于2022年创建，基于DLKcat项目，整合了BRENDA和SABIO-RK数据库中的酶催化效率数据，并通过Biomap平台进行了数据清洗和分割。该数据集的核心研究问题在于通过机器学习模型预测酶的催化效率，从而加速酶工程和生物催化剂的开发。其影响力体现在为酶催化效率的定量预测提供了高质量的数据支持，推动了生物催化领域的计算建模研究。

当前挑战

enzyme_kcat数据集在解决酶催化效率预测问题时面临多重挑战。首先，酶催化效率的测量数据通常存在实验误差和异质性，导致数据质量参差不齐。其次，酶序列与催化效率之间的复杂非线性关系增加了建模难度，尤其是在处理多反应酶时，kcat值的平均化可能引入偏差。此外，数据集的构建过程中，短序列和重复序列的剔除虽然提升了数据质量，但也可能导致信息丢失，影响模型的泛化能力。这些挑战要求研究人员在数据预处理、特征工程和模型选择上投入更多精力，以实现更精确的预测。

常用场景

经典使用场景

在酶动力学研究中，enzyme_kcat数据集被广泛应用于酶催化效率的预测与建模。通过该数据集，研究者能够深入分析酶序列与其催化速率常数（kcat）之间的关系，进而揭示酶催化机制中的关键因素。该数据集的使用场景涵盖了从基础酶学研究到工业酶工程设计的多个领域，为酶的功能预测和优化提供了重要的数据支持。

解决学术问题

enzyme_kcat数据集解决了酶催化效率预测中的关键问题，即如何从酶序列中准确推断其催化速率常数（kcat）。传统实验方法测定kcat耗时且成本高昂，而该数据集通过整合BRENDA和SABIO-RK等权威数据库的数据，提供了大量经过标准化处理的酶序列及其对应的kcat值，为机器学习模型的训练和验证奠定了基础。这一数据集的出现显著推动了酶催化效率预测领域的发展，为酶工程和代谢工程研究提供了新的工具和方法。

实际应用

在实际应用中，enzyme_kcat数据集被广泛用于工业酶的设计与优化。例如，在生物制造领域，研究者利用该数据集训练机器学习模型，预测和筛选具有高催化效率的酶变体，从而提高生物催化过程的效率和经济性。此外，该数据集还被用于药物开发中的酶靶点研究，帮助研究者识别和优化具有潜在治疗价值的酶。

数据集最近研究