five

Mutation Stability Data

收藏
github2022-12-10 更新2024-05-31 收录
下载链接:
https://github.com/JinyuanSun/mutation-stability-data
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集包含了关于蛋白质稳定性变化的突变效应数据,包括野生型和突变型蛋白质序列、突变位置、实验测量的稳定性变化等。

These datasets encompass data on the mutational effects concerning protein stability changes, including sequences of wild-type and mutant proteins, mutation sites, and experimentally measured stability alterations.
创建时间:
2022-09-29
原始信息汇总

数据集概述

数据集名称

Mutation Stability Data

数据集描述

数据集包含关于突变对蛋白质稳定性影响的信息。

数据集版本

  • V1数据:最初为学位论文研究收集,用于构建单序列的ΔΔG预测模型。包含train.csvtest.csv文件,主要字段有:

    • PDB:PDB ID代码。
    • wildtype:野生型氨基酸。
    • position:突变在序列中的残基编号。
    • mutation:突变后的氨基酸。
    • ddG:实验测量的ΔΔG(折叠),正值表示更稳定。
    • sequence:野生型蛋白质序列。
    • mutant_seq:突变后的蛋白质序列。
  • V2数据:基于V1数据清理和更新,用于Kaggle竞赛novozymes-enzyme-stability-prediction。主要字段有:

    • pdb:PDB ID代码。
    • wildtype:野生型氨基酸。
    • pdb_resseq:PDB文件中第6列的Auth. Resseq编号。
    • seq_index:序列字符串中单一突变发生的位置索引,从0开始。
    • mutation:突变后的氨基酸。
    • wt_seq:野生型蛋白质序列。
    • mut_seq:突变后的蛋白质序列。
    • ddG:实验测量的ΔΔG(折叠),正值表示更稳定。
    • group:用于K-fold CV。

数据集用途

用于预测酶的稳定性,通过工具DDGscan进行突变ΔΔG的预测。

搜集汇总
数据集介绍
main_image_url
构建方式
Mutation Stability Data数据集的构建源于分子生物学领域的研究,旨在探索氨基酸突变对蛋白质稳定性的影响。该数据集最初是为学位论文研究而收集,专注于从单一序列预测∆∆G(蛋白质折叠自由能变化)。数据集分为V1和V2两个版本,V1版本包含`train.csv`和`test.csv`文件,记录了蛋白质的PDB ID、野生型氨基酸、突变位置、突变氨基酸、实验测得的∆∆G值以及蛋白质序列等信息。V2版本在V1的基础上进行了清理和更新,增加了`pdb_resseq`和`seq_index`等字段,以支持更精确的突变定位。
特点
Mutation Stability Data数据集的特点在于其专注于蛋白质稳定性预测的核心问题,提供了丰富的实验数据支持。数据集不仅包含∆∆G值,还提供了∆T(熔解温度变化)的实验测量值,为研究蛋白质热稳定性提供了重要参考。此外,数据集中的突变信息与PDB数据库中的蛋白质结构文件直接关联,便于研究者结合三维结构进行深入分析。V2版本进一步优化了数据字段,增强了数据的可解释性和实用性。
使用方法
Mutation Stability Data数据集的使用方法灵活多样,适用于蛋白质稳定性预测模型的训练与验证。研究者可以通过PDB ID从RCSB数据库下载对应的蛋白质结构文件,结合数据集中的突变信息进行建模分析。数据集中的`ddG`和`dTm`字段可直接用于监督学习任务,而`group`字段则为K折交叉验证提供了便利。此外,数据集与[DDGScan](https://github.com/JinyuanSun/DDGScan)工具兼容,支持用户快速进行酶稳定性预测。
背景与挑战
背景概述
Mutation Stability Data 数据集聚焦于蛋白质稳定性研究,特别是氨基酸突变对蛋白质折叠自由能变化(∆∆G)的影响。该数据集最初由研究人员Jinyuan Sun在其学位论文研究中创建,旨在通过单一序列预测∆∆G,以填补AlphaFold2出现前的技术空白。数据集包含野生型和突变型蛋白质序列及其对应的实验测量值,涵盖了蛋白质结构数据库(PDB)中的多个蛋白质实例。该数据集不仅为蛋白质设计领域提供了重要的实验数据支持,还为酶稳定性预测模型的开发奠定了基础。
当前挑战
Mutation Stability Data 数据集在解决蛋白质稳定性预测问题时面临多重挑战。首先,蛋白质折叠自由能变化的预测本身具有高度复杂性,涉及氨基酸序列、三维结构及环境因素的相互作用。其次,数据集的构建过程中,研究人员需处理实验数据的噪声和不一致性,例如PDB文件中残基编号的非连续性。此外,数据集的版本更新和列名不一致性也增加了数据处理和分析的难度。这些挑战要求研究人员在模型开发中结合多源数据,并设计鲁棒的算法以应对数据复杂性。
常用场景
经典使用场景
Mutation Stability Data数据集在蛋白质工程和分子生物学研究中具有重要应用,尤其是在预测氨基酸突变对蛋白质稳定性的影响方面。研究人员利用该数据集中的∆∆G(自由能变化)和∆Tm(熔点温度变化)数据,评估不同突变对蛋白质折叠稳定性的影响。这些数据为构建和验证蛋白质稳定性预测模型提供了基础,尤其是在缺乏实验数据的情况下,能够通过计算模型预测突变效应。
衍生相关工作
基于Mutation Stability Data数据集,研究人员开发了多种蛋白质稳定性预测工具和模型,如DDGScan。这些工具利用数据集中的∆∆G和∆Tm数据,能够快速预测氨基酸突变对蛋白质稳定性的影响。此外,该数据集还推动了多个Kaggle竞赛和相关研究项目的发展,进一步拓展了蛋白质工程和分子生物学的研究边界。
数据集最近研究
最新研究方向
近年来,Mutation Stability Data数据集在蛋白质工程和计算生物学领域引起了广泛关注。随着AlphaFold2等深度学习模型的崛起,蛋白质结构预测的准确性显著提升,研究者们开始将注意力转向蛋白质稳定性的预测与优化。该数据集通过提供突变对蛋白质稳定性影响的实验数据,为开发基于单序列的∆∆G预测模型提供了重要支持。当前的研究热点包括利用深度学习技术改进∆∆G预测精度,以及探索突变对蛋白质热稳定性的影响。这些研究不仅推动了蛋白质设计领域的进展,也为酶工程和药物开发提供了新的工具和方法。此外,该数据集在Kaggle竞赛中的应用进一步促进了数据驱动的蛋白质稳定性预测方法的发展,为相关领域的研究者提供了宝贵的资源和参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作