InstaDeepAI/PXD055983
收藏Hugging Face2026-05-06 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/PXD055983
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为用于InstaNovo-P的Astral数据集PXD055983,用于评估`InstaNovo-P`模型对未见检测器类型的泛化能力。数据集是通过重新处理在Orbitrap Astral仪器上获取的PXD055983数据集而生成的,使用了与`InstaNovo-P`论文中描述的相同的数据库搜索工作流程。数据集包含与质谱和蛋白质组学相关的特征,如扫描编号、头部信息、保留时间、碎片类型、碰撞能量、前体m/z、前体电荷、前体强度、偏移量、隔离目标、m/z数组、强度数组、比例因子、实验名称和谱图ID。数据集标记为生物学、质谱、蛋白质组学和从头肽段测序。原始数据源来自一项无标记定量蛋白质组学实验,研究了新1基因敲除对*S. cerevisiae*(面包酵母)中差异蛋白质表达的影响。数据集托管在PRIDE上,并于2026年发布。README还提供了数据集和相关模型的引用信息。
This dataset is named Astral dataset PXD055983 for InstaNovo-P and is used to assess the generalization ability of the `InstaNovo-P` model to unseen detector types. The dataset is generated by reprocessing the PXD055983 dataset acquired on an Orbitrap Astral instrument, using the same database search workflow as described in the `InstaNovo-P` paper. The dataset includes features related to mass spectrometry and proteomics, such as scan numbers, headers, retention times, fragment types, collision energies, precursor m/z, precursor charges, precursor intensities, offsets, isolation targets, m/z arrays, intensity arrays, scale factors, experiment names, and spectrum IDs. The dataset is tagged with biology, mass-spectrometry, proteomics, and de-novo-peptide-sequencing. The original data source is from a label-free quantitative proteomics experiment studying the impact of new1 knock-out on differential protein expression in *S. cerevisiae* (baker’s yeast). The dataset is hosted on PRIDE and was published in 2026. The README also provides citation information for the dataset and related models.
提供机构:
InstaDeepAI
搜集汇总
数据集介绍

构建方式
在蛋白质组学研究中,质谱仪检测器类型的差异对肽段测序模型的泛化能力构成显著挑战。为评估InstaNovo-P模型对未见检测器类型的适应能力,研究者基于PXD055983数据集进行了构建。该原始数据来源于一项关于new1基因敲除对酿酒酵母差异蛋白质表达影响的无标记定量蛋白质组学实验,使用Orbitrap Astral质谱仪配合Astral检测器采集。数据集构建过程严格遵循InstaNovo-P论文中描述的数据库搜索工作流对原始谱图进行重处理,最终形成了包含1109455个测试样本的标准化数据集,其中存储了母离子质荷比、电荷态、保留时间、碎片类型及碰撞能量等关键质谱属性,以及完整的质荷比和强度序列对信息。
特点
该数据集的核心特征在于其专门用于评估深度学习模型在面对不同类型质谱检测器时的泛化表现。数据集中每个样本都包含了丰富的元数据字段,如扫描编号、实验名称与谱图标识符,便于追踪溯源。尤为突出的是,数据集的谱图特征涵盖了隔离窗口的上下偏移量、隔离目标值以及比例因子等参数,这些信息为深入分析Astral检测器的特有碎裂模式提供了基础。此外,该数据集规模宏大,总量超过14GB,为训练和测试大规模蛋白质组学深度学习模型提供了充足的数据支撑。
使用方法
该数据集主要用作InstaNovo-P模型的测试集,以验证其在新类型质谱检测器上的泛化能力。使用时可直接通过Hugging Face数据集库加载,采用标准的数据加载方式调用所有test分片文件。研究者在加载后可以将各特征字段输入InstaNovo-P的推理管线,利用其中的母离子信息、碎片离子序列及碰撞能量等参数进行从头肽段测序。值得注意的是,在引用该数据集时应同时引用InstaNovo-P的学术论文,并推荐配合使用InstaNovo模型进行预测,以便在蛋白质组学实验中实现更全面的磷酸化位点解析与生物学功能挖掘。
背景与挑战
背景概述
蛋白质组学领域长期面临如何从质谱数据中高效、准确地进行从头肽段测序的挑战,尤其是针对翻译后修饰如磷酸化位点的精准定位。2025年,Jesper Lauridsen与InstaDeep、哥本哈根大学等机构的合作团队在预印本平台bioRxiv上发表了InstaNovo-P模型,旨在突破传统数据库搜索的局限,实现对磷酸化肽段的深度解析。为验证模型对不同检测器类型(如Orbitrap Astral)的泛化能力,研究团队利用Jia-Xuan Chen提交至PRIDE仓库的PXD055983数据集——一项关于酿酒酵母new1基因敲除差异蛋白质表达的无标记定量蛋白质组学实验。该数据集经重新处理,与InstaNovo-P论文中的数据库检索工作流保持一致,成为评估模型在新型质谱仪器上表现的关键基准,有力推动了蛋白质组学中从头测序方法的发展。
当前挑战
该数据集的核心挑战在于解决传统数据库搜索在磷酸化蛋白质组学中的固有局限:一方面,复杂搜索空间与大量未知序列使得算法难以准确检测磷酸化位点及新肽段;另一方面,不同质谱仪器间的检测特性差异要求模型具备强泛化能力,而PXD055983数据集正好来自新型Orbitrap Astral设备,以测试InstaNovo-P的适应性。此外,数据构建过程需应对高噪声谱图、多磷酸化位点共存以及数据规模庞大(超过110万张谱图)带来的计算与统计压力,从而确保评估的可靠性与模型在真实实验场景中的实用性。
常用场景
经典使用场景
PXD055983数据集是专为评估InstaNovo-P模型在未知检测器类型上的泛化能力而收集的质谱数据。在蛋白质组学研究中,该数据集来源于Orbitrap Astral仪器采集的酿酒酵母(*Saccharomyces cerevisiae*)无标记定量蛋白质组学实验,旨在探究new1基因敲除对差异蛋白质表达的影响。其经典使用场景包括作为外部验证集,用于测试基于深度学习的从头肽段测序算法在面对新型质谱仪器(如Astral检测器)时的鲁棒性与适应性。通过将实际采集的二级质谱图输入模型,研究者可以衡量算法在未知仪器特征下的氨基酸序列预测精度,从而验证模型在现实多变实验环境中的实用价值。
实际应用
在实际应用中,PXD055983数据集主要服务于蛋白质组学研究中肽段序列的从头鉴定。通过将Astral检测器采集的质谱图输入InstaNovo-P模型,研究者能够实现对酿酒酵母样本中磷酸化肽段的高精度识别与修饰位点定位。这一流程广泛应用于疾病机制探索,如细胞信号通路解析、激酶底物发现以及新型生物标志物的筛选。由于模型不依赖参考数据库,该数据集特别适用于检测未知突变、剪接变体或稀有翻译后修饰所产生的新颖肽段,从而为精准医学与个性化治疗提供更为全面的蛋白质组视角。
衍生相关工作
围绕PXD055983数据集,衍生出了多项开创性工作。首先,InstaNovo-P模型基于该数据验证了自身在磷酸化蛋白质组学中的卓越性能,成功实现了对丝氨酸、苏氨酸和酪氨酸残基上磷酸化事件的高效定位。其次,该数据集推动了InstaNovo系列模型的发展,包括针对不同翻译后修饰类型的专用版本。此外,研究者利用该数据实证了从头测序模型相较于传统数据库搜索在发现新磷酸化位点上的优势,相关工作已发表在*Nature Machine Intelligence*与*bioRxiv*等预印本平台,为蛋白质组学计算方法的迭代提供了关键基准参考。
以上内容由遇见数据集搜集并总结生成



