DATASET-CAPE-RhlA-seqlabel

Hugging Face2024-11-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SaProtHub/DATASET-CAPE-RhlA-seqlabel

下载链接

链接失效反馈

官方服务：

资源简介：

CAPE数据集包含RhlA酶的突变序列及其功能评估指标。训练数据集包含1,593个序列，每个序列对应一个酶功能评估指标，用于训练模型。测试数据集包含925个序列，用于模型评估，需要预测这些序列的活性。数据集的目的是通过修改RhlA酶的突变来优化rhamnolipids的产量和应用潜力。

The CAPE dataset contains mutant sequences of the RhlA enzyme and their corresponding functional evaluation metrics. The training dataset includes 1,593 sequences, each paired with an enzyme functional evaluation index for model training. The test dataset contains 925 sequences, which are used for model evaluation and require predicting the activity of these sequences. The purpose of this dataset is to optimize the yield and application potential of rhamnolipids by modifying the mutant sequences of the RhlA enzyme.

创建时间：

2024-11-13

原始信息汇总

CAPE Dataset: RhlA Enzyme Mutations

数据集介绍与用途

RhlA（Uniprot ID: Q51559, PDB ID: 8IK2）是一种关键酶，参与合成鼠李糖脂的疏水成分。该酶决定了脂肪酸链的长度和不饱和度，从而影响鼠李糖脂的物理化学性质和生物活性。

为何修改RhlA？

修改RhlA可以更好地控制脂肪酸链的结构，从而提高鼠李糖脂的产量，并增强其在工业和医药应用中的潜力。

数据集描述

训练数据集: `Saprot_CAPE_dataset_train.csv`

文件格式: CSV
序列数量: 1,593
列:
- protein: 表示在6个关键氨基酸位置（位置74、101、143、148、173和176）的突变组合。
- label: 酶功能评估指标，表示总体活性产量。

测试数据集: `Saprot_CAPE_dataset_test.csv`

序列数量: 925
描述: 仅包含序列信息。您需要预测这些序列的活性以进行模型评估。将预测结果提交到Kaggle以获取性能反馈。

搜集汇总

数据集介绍

构建方式

DATASET-CAPE-RhlA-seqlabel数据集的构建基于RhlA酶的关键氨基酸位点突变研究。RhlA酶在合成鼠李糖脂的疏水组分中起决定性作用，其突变能够调控脂肪酸链的长度和不饱和度，进而影响鼠李糖脂的理化性质和生物活性。数据集通过实验手段，收集了RhlA酶在6个关键氨基酸位点（74、101、143、148、173和176）的突变组合及其对应的酶活性数据，形成了包含1,593条训练序列和925条测试序列的结构化数据集。

特点

该数据集的特点在于其专注于RhlA酶的突变效应，提供了详细的氨基酸位点突变信息及其对应的酶活性指标。训练数据集以CSV格式存储，包含蛋白质序列和酶活性标签两列，便于机器学习模型的训练。测试数据集则仅包含序列信息，旨在评估模型对未知序列的预测能力。数据集的设计充分考虑了工业与制药应用的需求，为优化鼠李糖脂的产量和性能提供了科学依据。

使用方法

使用DATASET-CAPE-RhlA-seqlabel数据集时，研究人员可利用训练数据集构建机器学习模型，预测RhlA酶突变对活性的影响。测试数据集用于模型性能评估，用户需提交预测结果至Kaggle平台以获取反馈。该数据集适用于酶工程、蛋白质功能预测及生物催化领域的研究，为探索RhlA酶的突变效应及其在工业中的应用提供了重要数据支持。

背景与挑战

背景概述

DATASET-CAPE-RhlA-seqlabel数据集聚焦于RhlA酶的突变研究，该酶在合成鼠李糖脂的疏水成分中扮演关键角色。RhlA酶通过调控脂肪酸链的长度和不饱和度，直接影响鼠李糖脂的物理化学性质及生物活性。该数据集由KRATSZ团队于2023年创建，旨在通过突变RhlA酶，优化其功能，从而提升鼠李糖脂的产量及其在工业和医药领域的应用潜力。数据集包含训练集和测试集，分别用于模型训练和性能评估，为酶工程和生物催化领域的研究提供了重要支持。

当前挑战

DATASET-CAPE-RhlA-seqlabel数据集在解决酶功能优化问题时面临多重挑战。RhlA酶的突变对其功能的影响具有高度复杂性，如何准确预测突变后的酶活性仍是一个难题。数据集的构建过程中，研究人员需精确筛选关键氨基酸位点并进行大量实验验证，以确保数据的可靠性和代表性。此外，测试集仅包含序列信息，要求研究者开发高效的预测模型，这对算法的准确性和泛化能力提出了更高要求。这些挑战共同推动了酶工程和机器学习领域的交叉研究。

常用场景

经典使用场景

在生物信息学和酶工程领域，DATASET-CAPE-RhlA-seqlabel数据集被广泛应用于研究RhlA酶的突变效应及其对鼠李糖脂合成的影响。通过分析不同突变组合对酶活性的影响，研究人员能够深入理解酶结构与功能之间的关系，进而优化酶的催化效率。

解决学术问题

该数据集解决了酶工程中如何通过定向突变优化酶活性的关键问题。通过对RhlA酶关键氨基酸位点的突变进行系统研究，数据集为理解酶活性调控机制提供了实验依据，推动了酶工程领域的发展，并为工业应用中的酶优化提供了理论支持。

衍生相关工作

基于该数据集，研究人员开发了多种机器学习模型，用于预测酶突变对活性的影响。这些模型不仅扩展了酶工程的研究方法，还为其他酶系统的优化提供了参考。此外，相关研究还推动了生物信息学工具的开发，如突变效应预测算法和酶活性评估平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集