five

InstaDeepAI/PXD062859

收藏
Hugging Face2026-05-06 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/PXD062859
下载链接
链接失效反馈
官方服务:
资源简介:
为了评估InstaNovo-P模型在磷酸化肽段上的性能,我们使用了一个来自T47D乳腺癌细胞系实验的数据集,该细胞系在生长因子处理后表达或不表达Fibroblast Growth Factor Receptor 2 (FGFR2)。磷酸化是一种重要的翻译后修饰(PTM),在细胞信号传导和疾病机制中起着核心作用。基于质谱的磷酸化蛋白质组学被广泛用于系统范围内磷酸化事件的表征。然而,传统方法在准确的磷酸化位点定位、复杂的搜索空间以及检测参考数据库之外的序列方面存在困难。InstaNovo-P是我们基于Transformer的InstaNovo模型的磷酸化特异性版本,经过大量磷酸化蛋白质组学数据集的微调,显著超越了现有方法在磷酸化肽段检测和磷酸化位点定位准确性方面的表现。我们的模型能够稳健地识别具有单磷酸化和多磷酸化位点的肽段,并有效地定位丝氨酸、苏氨酸和酪氨酸残基上的磷酸化事件。通过FGFR2信号数据的实验验证,进一步证明InstaNovo-P能够发现传统数据库搜索遗漏的许多磷酸化位点,这些位点与关键的生物过程一致,证实了模型在提供有价值的生物学见解方面的能力。InstaNovo-P通过无需先验信息即可有效识别生物学相关的磷酸化事件,为信号通路的解析提供了强大的分析工具。

To assess the model performance of `InstaNovo-P` on phosphorylated peptides, we used a dataset from an in-house experiment using T47D breast cancer cell line expressing or not Fibroblast Growth Factor Receptor 2 (FGFR2) upon growth factor treatment. Phosphorylation, a vital post-translational modification (PTM), plays a central role in cellular signaling and disease mechanisms. Mass spectrometry-based phosphoproteomics is widely used for system-wide characterization of phosphorylation events. However, traditional methods struggle with accurate phosphosite localization, complex search spaces, and detecting sequences outside the reference database. Advances in de novo peptide sequencing offer opportunities to address these limitations, but have yet to be integrated and adapted for phosphoproteomics experiments. Here, we present InstaNovo-P, a phospho-specific version of our transformer-based InstaNovo model, fine-tuned on extensive phosphoproteomics datasets. InstaNovo-P significantly surpasses existing methods in phosphopeptide detection and phosphosite localization accuracy across multiple datasets, including complex experimental scenarios. Our model robustly identifies peptides with single and multiple phosphorylation sites, effectively localizing phosphorylation events on serine, threonine, and tyrosine residues. Experimental validation with FGFR2 signaling data further demonstrated that InstaNovo-P uncovers numerous phosphosites previously missed by traditional database searches, which align with critical biological processes, confirming the model’s capacity to yield valuable biological insights. InstaNovo-P adds value to phosphoproteomics experiments by effectively identifying biologically relevant phosphorylation events without prior information, providing a powerful analytical tool for the dissection of signaling pathways.
提供机构:
InstaDeepAI
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自一项针对T47D乳腺癌细胞系的内部实验,旨在评估InstaNovo-P模型在磷酸化肽段检测上的性能。样本经裂解、丙酮沉淀、酶解及TiO2富集处理,随后采用液相色谱-串联质谱(LC-MS/MS)技术,在Q Exactive HF质谱仪上以数据依赖性采集模式获取谱图。数据经由MaxQuant与Andromeda搜索引擎进行检索,并以人类UniProt知识库为参考,严格控制错误发现率(FDR)低于1%,最终构建出包含近92万个谱图的高质量磷酸化蛋白质组学数据集。
特点
PXD062859数据集的显著特点在于其专为磷酸化肽段测序任务而设计,包含详尽的质谱信息,如母离子质荷比、电荷态、保留时间、碎片类型及碰撞能量等。数据集涵盖单一及多位点磷酸化肽段,并精准定位丝氨酸、苏氨酸与酪氨酸残基上的修饰事件。其规模庞大,测试集包含超过90万个示例,为评估和微调深度学习模型提供了坚实的数据基础,尤其适用于验证InstaNovo-P等新型框架在复杂生物样品中的磷酸化位点定位能力。
使用方法
该数据集主要作为InstaNovo-P模型的测试基准使用,研究者可直接加载HuggingFace上的预划分数据文件进行模型评估。使用时应引用相关的生物信息学工具与质谱处理流程,确保实验的可重复性。数据集中的谱图特征可作为输入,配合InstaNovo系列模型进行从头测序,尤其适用于发现传统数据库搜索未能识别的生物学相关磷酸化事件,为信号通路解析提供有力的分析工具。
背景与挑战
背景概述
该数据集由InstaDeep团队联合多家研究机构于2025年创建,旨在评估InstaNovo-P模型在磷酸化肽段从头测序中的性能。磷酸化作为关键的翻译后修饰,在细胞信号传导和疾病机制中扮演核心角色。传统质谱磷酸化蛋白质组学方法在磷酸化位点精确定位、复杂搜索空间以及参考数据库以外的序列检测方面存在显著局限。该数据集基于FGFR2信号通路实验,利用T47D乳腺癌细胞系,通过先进的液相色谱-串联质谱与二氧化钛富集技术生成,为验证深度学习模型在磷酸化肽段识别与位点定位中的突破性能力提供了权威基准,推动了磷酸化蛋白质组学数据分析范式的革新。
当前挑战
该数据集主要应对的领域挑战包括:传统数据库搜索方法对磷酸化位点定位精度不足,尤其难以区分丝氨酸、苏氨酸和酪氨酸上的修饰;经典算法无法有效检测未被收录于参考数据库中的序列,导致大量生物学相关的磷酸化事件被遗漏;复杂实验场景(如多磷酸化位点共现)下,现有工具的信噪比和假阳性率控制能力有限。构建过程中面临的挑战涵盖:磷酸化肽段因亲水性高、丰度低,富集与质谱检测效率易受样本前处理流程影响;大规模LC-MS/MS数据采集需平衡分辨率、扫描速度与动态排除时间等参数,以确保数据质量;高维质谱数据的标准化处理与FDR严格控制,对计算资源与算法鲁棒性提出了极高要求。
常用场景
经典使用场景
在蛋白质组学领域,磷酸化修饰作为最重要的翻译后修饰之一,在细胞信号传导和疾病发生过程中扮演着关键角色。PXD062859数据集源自一项通过质谱磷酸化蛋白质组学技术分析T47D乳腺癌细胞系中FGFR2信号通路的研究,其核心设计是用于评估和验证新型深度测序模型InstaNovo-P在磷酸化肽段检测与磷酸化位点精确定位上的性能。该数据集包含超过91万个质谱图谱,涵盖了丰富的碎片离子信息、色谱保留时间、碰撞能量及前体离子属性,是研究磷酸化修饰识别、磷酸化位点定位算法以及从头测序方法的理想基准资源。研究人员常利用该数据集将预测的磷酸化肽段与传统数据库搜索结果进行比对,从而揭示模型在识别低丰度或非参考数据库序列方面的独特优势。
解决学术问题
长期以来,传统数据库搜索方法在磷酸化蛋白质组学分析中面临诸多瓶颈,包括磷酸化位点定位精度不足、搜索空间过于复杂以及无法检测参考数据库之外的肽段序列。PXD062859数据集的引入,为解决这些学术难题提供了坚实的实验基础。通过此数据集,研究者能够验证InstaNovo-P模型在单磷酸化和多位点磷酸化肽段识别上的卓越性能,并能够精准区分丝氨酸、苏氨酸和酪氨酸残基上的磷酸化事件。该数据集的应用推动了从头测序技术在磷酸化蛋白质组学中的整合与优化,实现了无需先验信息即可挖掘生物学相关的磷酸化信号。这一突破不仅提升了磷酸化位点定位的准确率,还拓展了质谱数据分析的边界,为揭示细胞信号通路的精细调控机制开辟了新路径。
衍生相关工作
PXD062859数据集作为InstaNovo-P模型的核心验证资源,衍生了一系列具有深远影响的经典工作。该数据集直接支持了InstaNovo-P模型的开发和基准测试,该模型基于Transformer架构,在磷酸化肽段检测和磷酸化位点定位上显著超越了现有方法。相关研究工作还围绕该数据集探讨了扩散模型在从头肽段测序中的应用,衍生出InstaNovo这一更基础但同样强大的框架,并在大规模蛋白质组学实验中得到验证。此外,该数据集促进了磷酸化蛋白质组学新分析管线的设计,推动了针对复杂翻译后修饰的深度学习方法创新。未来,基于PXD062859的研究成果将进一步催生多靶点信号网络分析工具、实时磷酸化图谱高通量注释算法,以及面向个性化癌症疫苗开发的磷酸化新抗原预测模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作