five

ppi_mutation_effect

收藏
Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/ppi_mutation_effect
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含人类蛋白质-蛋白质相互作用例子以及跨物种测试例子的数据集,适用于研究蛋白质相互作用及其突变效应。
提供机构:
Gleghorn Lab
创建时间:
2025-10-29
原始信息汇总

数据集概述

基本信息

  • 数据集名称: ppi_mutation_effect
  • 来源: 原始数据集来自 https://huggingface.co/datasets/danliu1226/Mutation_effect_dataset
  • 描述: 包含人类蛋白质相互作用示例及跨物种测试示例的数据集
  • 详细论文: https://www.nature.com/articles/s41467-025-64512-w

数据集规模

  • 总大小: 14,093,520 字节
  • 下载大小: 5,193,083 字节
  • 总样本数: 6,785 条

数据划分

  • 训练集: 5,103 条样本,9,306,275 字节
  • 验证集: 841 条样本,2,338,981 字节
  • 测试集: 841 条样本,2,448,264 字节

特征字段

  • affected_uniprot (字符串)
  • parti_uniprot (字符串)
  • Affected_species (字符串)
  • Participant_species (字符串)
  • Feature type (字符串)
  • Feature range(s) (字符串)
  • Original sequence (字符串)
  • Resulting sequence (字符串)
  • PubMedID (字符串)
  • Interaction AC (字符串)
  • wild_seq (字符串)
  • mutant_seq (字符串)
  • participant_sequence (字符串)
  • Feature_type (字符串)
  • label (int64)

引用要求

请引用原始作者的工作

搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质相互作用研究领域,该数据集通过整合多源生物信息学数据构建而成,涵盖人类及跨物种的蛋白质突变效应记录。其核心数据来源于国际分子数据库和经过同行评审的科学文献,每条记录均标注了突变前后的氨基酸序列变化、相互作用标识符及相关的PubMed文献编号。构建过程中采用标准化流程对原始数据进行清洗与标注,确保数据的准确性与一致性,最终形成包含训练集、验证集和测试集的完整数据架构。
特点
该数据集以蛋白质相互作用突变效应为核心,具备多维度特征表征能力。其独特之处在于同时包含人类与跨物种的相互作用数据,并详细记录了突变位点的序列变异、功能域特征及物种分类信息。数据字段设计科学完整,涵盖野生型与突变型序列对比、相互作用编号及文献溯源,为深入研究突变对蛋白质功能的影响提供了丰富上下文。数据集规模适中且经过严格划分,支持可靠的机器学习模型训练与验证。
使用方法
在生物信息学应用中,该数据集适用于蛋白质相互作用突变效应的预测模型开发。研究人员可直接加载标准化的数据分割,利用训练集进行模型参数学习,通过验证集调整超参数,最终在测试集上评估模型泛化能力。每条数据记录的序列特征和标签信息可直接输入深度学习架构,特别适用于研究突变对蛋白质结合亲和力的影响。使用时应遵循原始文献的引用规范,确保学术成果的正确归属。
背景与挑战
背景概述
蛋白质-蛋白质相互作用(PPI)突变效应数据集由国际研究团队于2025年构建,聚焦于人类蛋白质互作网络中单点突变对分子识别机制的影响。该数据集通过整合UniProt数据库、PubMed文献及跨物种进化信息,系统量化突变前后序列变化与相互作用强度的关联,为计算结构生物学提供了关键基准。其创新性在于引入跨物种测试框架,揭示了进化保守性在突变效应预测中的核心价值,显著推动了药物靶点识别和遗传疾病机理的研究进程。
当前挑战
该数据集致力于解决蛋白质相互作用突变效应预测这一前沿问题,其核心挑战在于突变导致的构象熵变与结合自由能变化的精确建模。数据构建过程中面临多重困难:需从异构生物数据库中提取标准化突变注释,协调不同物种间序列比对的一致性,并消除实验测量噪声对标签可靠性的干扰。此外,跨物种测试要求模型具备进化距离泛化能力,这对传统机器学习方法提出了严峻考验。
常用场景
经典使用场景
在蛋白质相互作用研究领域,ppi_mutation_effect数据集为突变效应预测提供了关键基准。该数据集通过整合人类及跨物种的蛋白质互作数据,典型应用于训练深度学习模型以识别单点突变对蛋白质结合界面的影响。研究者常利用其序列变异标签构建分类器,评估突变是否破坏或增强分子间相互作用,为功能基因组学提供量化依据。
解决学术问题
该数据集有效解决了蛋白质突变功能预测中的泛化性难题。通过引入跨物种测试样本,它克服了单一物种数据过拟合的局限,使模型能够捕捉进化保守的相互作用规律。其标注体系为定量评估突变致病机制提供了标准框架,显著推进了计算生物学中对基因型-表型关联的解码精度。
衍生相关工作
基于该数据集衍生的经典研究包括多尺度神经网络架构的开发,如结合图注意力机制的突变效应预测模型。这些工作通过融合序列进化信息与三维结构特征,显著提升了跨物种泛化能力。后续研究进一步拓展至蛋白质设计领域,催生了能够逆向生成稳定突变序列的生成式人工智能方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作