enzyme_kcat|酶催化效率数据集|生物信息学数据集

huggingface2024-09-22 更新2024-12-12 收录

酶催化效率

生物信息学

下载链接：

https://huggingface.co/datasets/GleghornLab/enzyme_kcat

下载链接

链接失效反馈

资源简介：

该数据集包含酶的序列和其催化效率的标签。序列（'seqs'）是字符串类型，标签（'labels'）是经过log10归一化的float64类型，单位为log10(1/s)。数据集分为训练集、验证集和测试集，分别包含6837、498和469个样本。数据集来源于DLKcat，已经去除了重复和短序列，并且酶的多反应kcat值被平均化。

提供机构：

Gleghorn Lab

创建时间：

2024-09-22

原始信息汇总

数据集概述

数据集信息

特征:
- seqs: 序列数据，类型为字符串 (string)
- labels: 标签数据，类型为浮点数 (float64)
分割:
- train: 训练集，包含6837个样本，占用2933951字节
- valid: 验证集，包含498个样本，占用217038字节
- test: 测试集，包含469个样本，占用204262字节
下载大小: 2178499字节
数据集总大小: 3355251字节

配置

配置名称: default
- 数据文件路径:
  - train: data/train-*
  - valid: data/valid-*
  - test: data/test-*

数据处理

数据来源:
- 数据集来源于DLKcat，包含BRENDA和SABIO-RK数据库的数据。
- 数据分割来自Biomap，并移除了重复和短序列。
- 具有多个反应的酶的kcat值被平均化。
kcat值:
- kcat值经过log10归一化处理，单位为log10(1/s)。
- 由于kcat值在反应中被平均化且存在反应模糊性，因此它只是一个催化速率的通用代理，数值越高表示催化速率越快。

数据处理代码

python import pandas as pd from datasets import Dataset, DatasetDict, concatenate_datasets

def process_dataset(dataset_dict): precedence = [train, valid, test] # 为每个数据集添加split列 for split in dataset_dict.keys(): dataset_dict[split] = dataset_dict[split].add_column(split, [split]*len(dataset_dict[split])) # 将所有分割合并为一个数据集 all_data = concatenate_datasets([dataset_dict[split] for split in dataset_dict.keys()]) # 转换为pandas DataFrame df = all_data.to_pandas() # 移除长度小于50的序列 df[seq_length] = df[seqs].apply(len) df = df[df[seq_length] >= 50] # 按seqs分组以查找重复项并平均标签 def aggregate_group(group): avg_label = group[labels].mean() # 将序列分配到其出现的最高优先级分割 for p in precedence: if p in group[split].values: selected_split = p break return pd.Series({labels: avg_label, split: selected_split}) df_grouped = df.groupby(seqs).apply(aggregate_group).reset_index() # 将DataFrame拆分为原始分割，且不包含重叠序列 new_dataset_dict = DatasetDict() for split in precedence: df_split = df_grouped[df_grouped[split] == split] new_dataset_dict[split] = Dataset.from_pandas(df_split[[seqs, labels]], preserve_index=False) return new_dataset_dict

AI搜集汇总

数据集介绍

构建方式

enzyme_kcat数据集的构建基于DLKcat项目，整合了BRENDA和SABIO-RK数据库中的酶催化效率数据，并通过Biomap数据集的分割进行处理。在数据预处理阶段，重复序列和短序列被移除，同时对于具有多个反应的酶，其kcat值进行了平均处理。kcat值经过log10归一化处理，单位为log10(1/s)，作为酶催化速率的一般代理指标。数据集进一步通过Python脚本进行清洗和分割，确保序列长度不小于50，并按训练集、验证集和测试集进行划分。

使用方法

使用enzyme_kcat数据集时，用户可以通过Hugging Face的datasets库加载数据，并按照提供的Python脚本进行预处理。数据集已按训练集、验证集和测试集划分，用户可以直接使用这些分割进行模型训练和评估。预处理脚本中包含了序列长度过滤和kcat值平均化的步骤，用户可以根据需要调整这些参数。此外，数据集支持转换为Pandas DataFrame格式，便于进一步的数据分析和处理。通过该数据集，用户可以构建和评估酶催化速率预测模型，推动酶工程和生物催化领域的研究。

背景与挑战

背景概述

酶催化效率（kcat）是生物化学和酶工程领域中的一个关键参数，用于描述酶在单位时间内催化底物转化为产物的能力。enzyme_kcat数据集由SysBioChalmers团队于2022年创建，基于DLKcat项目，整合了BRENDA和SABIO-RK数据库中的酶催化效率数据，并通过Biomap平台进行了数据清洗和分割。该数据集的核心研究问题在于通过机器学习模型预测酶的催化效率，从而加速酶工程和生物催化剂的开发。其影响力体现在为酶催化效率的定量预测提供了高质量的数据支持，推动了生物催化领域的计算建模研究。

当前挑战

enzyme_kcat数据集在解决酶催化效率预测问题时面临多重挑战。首先，酶催化效率的测量数据通常存在实验误差和异质性，导致数据质量参差不齐。其次，酶序列与催化效率之间的复杂非线性关系增加了建模难度，尤其是在处理多反应酶时，kcat值的平均化可能引入偏差。此外，数据集的构建过程中，短序列和重复序列的剔除虽然提升了数据质量，但也可能导致信息丢失，影响模型的泛化能力。这些挑战要求研究人员在数据预处理、特征工程和模型选择上投入更多精力，以实现更精确的预测。

常用场景

经典使用场景

在酶动力学研究中，enzyme_kcat数据集被广泛应用于酶催化效率的预测与建模。通过该数据集，研究者能够深入分析酶序列与其催化速率常数（kcat）之间的关系，进而揭示酶催化机制中的关键因素。该数据集的使用场景涵盖了从基础酶学研究到工业酶工程设计的多个领域，为酶的功能预测和优化提供了重要的数据支持。

解决学术问题

enzyme_kcat数据集解决了酶催化效率预测中的关键问题，即如何从酶序列中准确推断其催化速率常数（kcat）。传统实验方法测定kcat耗时且成本高昂，而该数据集通过整合BRENDA和SABIO-RK等权威数据库的数据，提供了大量经过标准化处理的酶序列及其对应的kcat值，为机器学习模型的训练和验证奠定了基础。这一数据集的出现显著推动了酶催化效率预测领域的发展，为酶工程和代谢工程研究提供了新的工具和方法。

实际应用

在实际应用中，enzyme_kcat数据集被广泛用于工业酶的设计与优化。例如，在生物制造领域，研究者利用该数据集训练机器学习模型，预测和筛选具有高催化效率的酶变体，从而提高生物催化过程的效率和经济性。此外，该数据集还被用于药物开发中的酶靶点研究，帮助研究者识别和优化具有潜在治疗价值的酶。

数据集最近研究

最新研究方向

近年来，酶催化效率（kcat）的研究在生物信息学和系统生物学领域备受关注。enzyme_kcat数据集通过整合BRENDA和SABIO-RK数据库的数据，提供了酶序列与其催化速率之间的关联信息。该数据集的最新研究方向聚焦于利用深度学习模型预测酶的催化效率，特别是在多反应酶的处理上，通过平均kcat值来简化复杂反应网络的建模。这一方法不仅提升了模型的可解释性，还为酶工程和代谢途径优化提供了重要参考。此外，随着合成生物学和绿色化学的兴起，enzyme_kcat数据集在酶设计和新催化剂开发中的应用潜力日益凸显，成为推动生物技术创新的关键工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

IST-3 CT Head Scans

IST-3 CT头部扫描数据集由爱丁堡大学临床脑科学中心创建，包含10,659个CT系列，用于研究颅内动脉钙化的分割。数据集来源于第三届国际中风试验（IST-3），涉及3035名急性缺血性中风患者的非增强CT扫描。数据集创建过程中，通过与模板配准和质量控制，确保了数据的有效性和准确性。该数据集主要用于支持深度学习方法在中风风险评估中的应用，特别是在颅内动脉钙化的自动量化方面。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

HotpotQA

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A 和属性 B？）和比较问题，其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中，QA 模型有 10 个段落，保证能找到黄金段落；在开放域全维基设置中，模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估，其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠，后者关注预测的支持事实句子与人类注释的匹配程度（Supporting Fact EM/F1)。该数据集还报告了一个联合指标，它鼓励系统同时在两项任务上表现良好。来源：通过迭代查询生成回答复杂的开放域问题

OpenDataLab 收录

VEDAI

用于训练YOLO模型的VEDAI数据集，包含图像和标签，用于目标检测和跟踪。

github 收录

DeepMIMO dataset

DeepMIMO数据集是一个公开的数据集生成框架，用于模拟多种无线通信环境。该数据集特别适用于大规模MIMO和毫米波应用，通过精确的射线追踪数据构建信道模型。数据集包含多个场景，每个场景都有详细的参数设置，如频率、带宽、基站天线配置等。这些参数可以根据研究需求进行调整，以生成符合特定研究目的的数据集。DeepMIMO数据集广泛用于无线通信系统的定位和性能评估研究，特别是在5G及未来通信技术中。

arXiv 收录