five

SaProtHub/DMS_YAP1_HUMAN

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/DMS_YAP1_HUMAN
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含蛋白质DMS_YAP1_HUMAN氨基酸序列的单点突变及其对应的突变效应评分,这些数据来源于深度突变扫描实验。数据集被分为训练集、验证集和测试集,分别包含291、35和36个样本。标签表示基于深度突变扫描实验的每个突变氨基酸序列的适应度评分。

This dataset contains single site mutation of protein DMS_YAP1_HUMAN amino acid sequence and the corresponding mutation effect score from a deep mutation scanning experiment. The dataset is divided into training, validation, and test sets, containing 291, 35, and 36 samples respectively. The label represents the fitness score of each mutant amino acid sequence based on a deep mutation scanning experiment.
提供机构:
SaProtHub
原始信息汇总

数据集概述

数据集基本信息

  • 名称: DMS_YAP1_HUMAN
  • 别名: SaProtHub/DMS_YAP1_HUMAN
  • 创建者: SaprotHub
  • 关键词: < 1K, csv, Text, Datasets, pandas, Croissant, 🇺🇸 Region: US
  • URL: https://hf-mirror.com/datasets/SaProtHub/DMS_YAP1_HUMAN

数据集描述

该数据集包含蛋白质DMS_YAP1_HUMAN氨基酸序列的单点突变及其对应的深度突变扫描实验的突变效应评分。

数据集分割

  • 训练集: 291
  • 验证集: 35
  • 测试集: 36

相关论文

数据集来自“Deep generative models of genetic variation capture the effects of mutations”。

标签

标签表示基于深度突变扫描的每个突变氨基酸序列的适应性评分。详细描述请参见数据集页面:https://hf-mirror.com/datasets/SaProtHub/DMS_YAP1_HUMAN。

数据分布

  • 类型: cr:FileObject

  • 名称: repo

  • 描述: HF Mirror git仓库。

  • 内容URL: https://hf-mirror.com/datasets/SaProtHub/DMS_YAP1_HUMAN/tree/refs%2Fconvert%2Fparquet

  • 编码格式: git+https

  • 类型: cr:FileSet

  • 名称: parquet-files-for-config-default

  • 描述: 由HF Mirror转换的基础Parquet文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。

  • 包含于: repo

  • 编码格式: application/x-parquet

  • 包含: default//.parquet

记录集

  • 类型: cr:RecordSet
  • 名称: default
  • 描述: SaProtHub/DMS_YAP1_HUMAN - default子集
    • 3个分割: train, validation, test

字段

  • 名称: default/Sequence

  • 描述: HF Mirror parquet文件中的Sequence列。

  • 数据类型: sc:Text

  • 来源:

    • 文件集: parquet-files-for-config-default
    • 提取: Sequence列
  • 名称: default/label

  • 描述: HF Mirror parquet文件中的label列。

  • 数据类型: sc:Float

  • 来源:

    • 文件集: parquet-files-for-config-default
    • 提取: label列
  • 名称: default/stage

  • 描述: HF Mirror parquet文件中的stage列。

  • 数据类型: sc:Text

  • 来源:

    • 文件集: parquet-files-for-config-default
    • 提取: stage列

符合标准

  • 标准: http://mlcommons.org/croissant/1.0
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质工程领域,深度突变扫描技术为系统评估氨基酸突变对蛋白质功能的影响提供了高通量手段。该数据集基于YAP1人类蛋白质的氨基酸序列,通过单点突变实验构建而成,每个突变体均对应一个突变效应评分。数据来源于《自然·方法》期刊上发表的深度生成模型研究,原始实验通过大规模并行测序技术,测量了突变后蛋白质的适应度变化,从而生成了包含训练、验证和测试集的完整数据框架。
特点
该数据集以氨基酸序列为基础格式,专注于YAP1蛋白质的单点突变效应,其标签值为基于深度突变扫描实验得出的适应度评分。野生型突变体的评分设定为1,评分越高代表突变后蛋白质的适应度越强。数据划分明确,包含291个训练样本、35个验证样本和36个测试样本,结构清晰且便于模型训练与评估。这种设计使得数据集在蛋白质功能预测和突变效应分析中具有高度的实用性和可靠性。
使用方法
在生物信息学与计算生物学研究中,该数据集可用于训练和评估蛋白质突变效应预测模型。用户可直接加载CSV格式的数据文件,利用氨基酸序列作为输入特征,适应度评分作为预测目标。通过划分好的训练、验证和测试集,研究者能够进行模型训练、超参数调优及性能验证,进而探索突变对蛋白质功能的影响机制,为蛋白质设计与优化提供数据支持。
背景与挑战
背景概述
在蛋白质工程与计算生物学领域,深度突变扫描技术为系统解析单点突变对蛋白质功能的影响提供了高通量实验手段。SaProtHub/DMS_YAP1_HUMAN数据集由相关研究团队于2018年构建,其核心研究问题聚焦于通过大规模突变实验量化人类YAP1蛋白质序列中氨基酸替换对其适应度的影响。该数据集源自《自然·方法学》期刊上发表的深度生成模型研究,旨在捕捉遗传变异的效应,为蛋白质设计、功能预测及疾病相关突变分析提供了关键数据支撑,显著推动了机器学习在蛋白质序列-功能关系建模中的应用。
当前挑战
该数据集致力于解决蛋白质突变效应预测这一复杂领域问题,其挑战在于准确量化单点突变对蛋白质适应度的细微影响,这需要克服生物实验噪声与计算模型泛化能力之间的平衡。在构建过程中,研究人员面临深度突变扫描实验的高成本与通量限制,同时需确保突变覆盖的全面性与标签数据的可靠性。此外,将实验测得的适应度分数转化为可计算的连续数值,并处理野生型与突变体序列之间的高维稀疏表示,也是数据整合与标准化中的关键难点。
常用场景
经典使用场景
在蛋白质工程与计算生物学领域,单点突变效应预测是理解蛋白质功能与稳定性的核心任务。SaProtHub/DMS_YAP1_HUMAN数据集通过深度突变扫描实验,系统记录了人类YAP1蛋白质氨基酸序列的单点突变及其对应的适应度分数,为研究者提供了精准的突变效应量化数据。该数据集常用于训练和评估机器学习模型,特别是深度生成模型,以预测未知突变对蛋白质功能的影响,从而加速蛋白质设计与优化进程。
实际应用
在实际应用中,SaProtHub/DMS_YAP1_HUMAN数据集被广泛用于指导蛋白质工程实践,例如酶的功能增强或药物靶点的优化。生物技术公司利用该数据集训练模型,筛选具有更高稳定性或活性的突变体,从而加速新型生物催化剂的开发或治疗性蛋白质的设计。此外,在合成生物学中,它支持定制化蛋白质构建,提升工业生物生产过程的效率与可持续性。
衍生相关工作
基于该数据集,多项经典研究工作得以衍生,其中最突出的是深度生成模型在遗传变异效应捕获中的应用。相关论文《Deep generative models of genetic variation capture the effects of mutations》利用此类数据训练模型,成功预测了突变对蛋白质功能的影响,为后续蛋白质序列设计提供了方法论基础。这些工作进一步推动了蛋白质语言模型和突变效应预测工具的开发,形成了计算蛋白质设计领域的重要分支。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作