five

SaProtHub/DMS_PTEN_HUMAN

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/DMS_PTEN_HUMAN
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含人类PTEN蛋白的单点突变及其对应的突变效应评分,这些评分来自深度突变扫描实验。数据集被分为训练集、验证集和测试集,分别包含3311、375和410个样本。相关论文提供了数据集的来源和背景信息。标签表示基于深度突变扫描实验的每个蛋白质的突变效应评分。

This dataset contains single site mutation of protein PTEN_HUMAN and the corresponding mutation effect score from deep mutation scanning experiment. The dataset is divided into training, validation, and test sets, containing 3311, 375, and 410 samples respectively. The related paper provides the source and background information of the dataset. The label means the mutation effect score of each protein based on deep mutation scanning experiment.
提供机构:
SaProtHub
原始信息汇总

数据集概述

数据集基本信息

数据集描述

该数据集包含蛋白质PTEN_HUMAN的单点突变及其对应的深度突变扫描实验的突变效应分数。

数据集结构

分布

记录集

  • 默认子集:
    • 名称: default
    • 描述: SaProtHub/DMS_PTEN_HUMAN - default子集
    • 分割: train, validation, test
    • 字段:
      • Sequence:
        • 描述: HF Mirror parquet文件中的Sequence列。
        • 数据类型: 文本
        • 来源: parquet-files-for-config-default
      • label:
        • 描述: HF Mirror parquet文件中的label列。
        • 数据类型: 浮点数
        • 来源: parquet-files-for-config-default
      • stage:
        • 描述: HF Mirror parquet文件中的stage列。
        • 数据类型: 文本
        • 来源: parquet-files-for-config-default

数据集标签

标签表示基于深度突变扫描实验的每个蛋白质的突变效应分数。

相关论文

该数据集来自《Deep generative models of genetic variation capture the effects of mutations》。

搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质工程领域,精准评估单点突变对蛋白质稳定性的影响至关重要。该数据集基于深度突变扫描实验构建,通过系统性地对PTEN_HUMAN蛋白质序列进行单点氨基酸替换,并利用高通量实验技术测量每个突变体的适应度分数,从而量化突变对蛋白质稳定性的效应。数据涵盖数千个突变样本,经过严谨的实验验证,确保了突变效应评分的可靠性与科学性。
特点
该数据集以蛋白质氨基酸序列为基础,专注于PTEN_HUMAN这一关键人类蛋白质的单点突变研究。其核心特点在于提供了连续的突变适应度分数标签,数值范围从负无穷到正无穷,分数越小表示蛋白质结构越稳定。数据集划分清晰,包含训练、验证和测试子集,支持机器学习模型在蛋白质稳定性预测任务中的训练与评估,为蛋白质设计提供了量化依据。
使用方法
该数据集适用于蛋白质稳定性预测与突变效应分析的机器学习研究。用户可加载CSV格式的数据文件,其中包含蛋白质序列和对应的突变适应度分数。模型训练时,建议以氨基酸序列作为输入特征,适应度分数作为回归目标,利用提供的划分进行模型训练、验证与测试。相关研究可参考Nature Methods论文,以深入理解数据生成背景与方法学基础。
背景与挑战
背景概述
在蛋白质工程与计算生物学领域,深度突变扫描技术为系统解析蛋白质功能与稳定性提供了革命性工具。SaProtHub/DMS_PTEN_HUMAN数据集由相关研究团队于2018年构建,其核心研究问题聚焦于通过单点突变数据量化人类PTEN蛋白的稳定性变化。该数据集源自《自然·方法学》期刊上发表的深度生成模型研究,通过实验测定的突变适应度评分,为蛋白质设计、疾病相关突变预测及进化分析提供了关键基准,显著推动了蛋白质序列-功能关系建模的发展。
当前挑战
该数据集致力于解决蛋白质稳定性预测的复杂挑战,其核心在于准确建模单点突变对蛋白质三维结构及热力学性质的影响。构建过程中的挑战主要体现在实验数据的获取与标准化:深度突变扫描实验需在高通量条件下精确测量大量突变体的稳定性分数,且评分范围从负无穷到正无穷的连续分布增加了数据归一化与模型训练的难度。此外,蛋白质序列的变异性与突变效应的非线性关联,要求计算模型具备捕捉细微结构变化的能力,这对机器学习方法的泛化性能提出了更高要求。
常用场景
经典使用场景
在蛋白质工程与计算生物学领域,SaProtHub/DMS_PTEN_HUMAN数据集为研究蛋白质稳定性与突变效应提供了关键资源。该数据集通过深度突变扫描实验,记录了人类PTEN蛋白的单点突变及其对应的突变适应度评分,广泛应用于机器学习模型的训练与验证。研究人员利用这一数据集构建预测模型,以评估氨基酸替换对蛋白质结构和功能的影响,从而加速蛋白质设计与优化进程。
衍生相关工作
基于该数据集,多项经典研究工作得以衍生,特别是在深度生成模型与蛋白质序列建模方面。例如,相关论文《Deep generative models of genetic variation capture the effects of mutations》利用此类数据训练模型,成功捕捉了遗传变异的效应。后续研究进一步扩展了模型架构,如结合图神经网络或注意力机制,提升了突变效应预测的准确性,并为蛋白质设计自动化工具的开发奠定了基础。
数据集最近研究
最新研究方向
在蛋白质工程与计算生物学领域,PTEN_HUMAN深度突变扫描数据集正成为探索蛋白质稳定性与功能关联的前沿工具。该数据集通过单点突变及对应的突变效应评分,为研究蛋白质结构-功能关系提供了精准的实验基准。当前研究热点聚焦于利用生成式模型预测突变影响,结合深度学习技术优化蛋白质设计策略,以推动疾病治疗靶点开发和合成生物学应用。这些进展不仅深化了对蛋白质稳定性的理解,也为高通量突变效应分析提供了可靠的数据支撑,在生物医学与生物技术领域具有重要的科学意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作