InstaDeepAI/InstaNovo-P

Name: InstaDeepAI/InstaNovo-P
Creator: InstaDeepAI
Published: 2026-05-06 07:58:39
License: 暂无描述

Hugging Face2026-05-06 更新2025-05-31 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/InstaNovo-P

下载链接

链接失效反馈

官方服务：

资源简介：

InstaNovo-P微调数据集由重新处理的PRIDE项目组成，这些项目在[Scop3P](https://pubs.acs.org/doi/10.1021/acs.jproteome.0c00306)中被重新处理。为了仅在具有高置信度的PSMs上进行微调，数据集在置信度阈值0.80处进行了过滤，将其减少到2,760,939个PSMs，代表74,686个独特的肽序列。大多数数据来自人类来源，除了[PXD005366](https://www.ebi.ac.uk/pride/archive/projects/PXD005366)和[PXD000218](https://www.ebi.ac.uk/pride/archive/projects/PXD000218)，它们包含人类和鼠标的混合物。所有用于训练模型的PSMs都至少包含一个磷酸化位点，而169,114个PSMs(6%)包含氧化甲硫氨酸。

The dataset used for fine tuning InstaNovo-P is comprised of a collection of reprocessed PRIDE projects in [Scop3P](https://pubs.acs.org/doi/10.1021/acs.jproteome.0c00306). (For a list of the projects, see [Dataset Sources](https://huggingface.co/datasets/InstaDeepAI/InstaNovo-P#dataset-sources)). The dataset originally contains 4,053,346 PSMs. To only fine-tune on high confidence PSMs, the dataset is filtered at a confidence threshold of 0.80, reducing it to 2,760,939 PSMs, representing 74,686 unique peptide sequences. Most of the data is of human origin, except for [PXD005366](https://www.ebi.ac.uk/pride/archive/projects/PXD005366) and [PXD000218](https://www.ebi.ac.uk/pride/archive/projects/PXD000218), which contain a mix of human and mouse. All PSMs that were used to train the model contained at least one phosphorylated site, while 169, 114 PSMs ( 6%) contained oxidated methionine.

提供机构：

InstaDeepAI

搜集汇总

数据集介绍

构建方式

该数据集专为微调InstaNovo-P模型而构建，其原始数据源自Scop3P项目中经过再处理的PRIDE数据库，共包含4,053,346个肽谱匹配（PSM）。为确保数据的高置信度，通过设置0.80的置信阈值进行筛选，最终保留2,760,939个PSM，涵盖74,686条独特的肽序列。随后，利用基于同源性的分区算法GraphPart，以MMseqs2为工具，设定0.8的阈值及0.7/0.1/0.2的训练-验证-测试比例，将数据集划分为三个子集。该过程剔除了390条序列，最终形成包含2,008,923、232,641和449,553个PSM的分区，其中验证集仅随机抽取2%用于训练以降低计算开销。

使用方法

使用该数据集时，可通过HuggingFace Datasets库直接加载，配置名称为'default'，并指定所需的分区（如'train'、'validation'或'test'）。加载后，数据以Parquet格式存储，包含序列（sequence）、前体电荷（precursor_charge）、质荷比（precursor_mz）、质谱阵列（mz_array）、强度阵列（intensity_array）和实验名称（experiment_name）等特征。用户可基于这些字段进行模型训练的输入构建，或利用预定义的分区进行模型验证与测试。

背景与挑战

背景概述

在蛋白质组学领域，磷酸化修饰作为关键的翻译后修饰，广泛参与细胞信号传导与疾病机制的研究。然而，传统的数据库依赖的肽段鉴定方法受限于数据库的完整性与准确性，难以覆盖未知或突变肽段。为突破这一瓶颈，InstaNovo-P 数据集应运而生，由 Jesper Lauridsen 与 Pathmanaban Ramasamy 等人于近期构建，源自 PRIDE 数据库中经过重新处理的 Scop3P 项目。该数据集聚焦于高置信度的磷酸化肽段谱图匹配（PSM），筛选后包含逾 270 万条记录，涵盖 7.4 万余条独特肽段序列，为从头测序模型的微调提供了高质量基准。其发布有效推动了蛋白质组学中磷酸化位点的精准定位与新型生物标志物的发现，在计算蛋白质组学与精准医学领域具有重要的应用价值。

当前挑战

该数据集所应对的核心领域挑战在于磷酸化肽段的从头测序：传统方法依赖数据库搜索，难以应对高度修饰、未知序列或跨物种的肽段鉴定，而磷酸化修饰本身的不稳定性与低化学计量比进一步增加了质谱分析的难度。在构建过程中，研究人员面临多重挑战：首先，从大规模 PRIDE 项目中整合异构数据时，需统一不同实验条件下的质谱格式与质量层次；其次，为确保数据可靠性，需设置严格的置信度阈值（0.80），剔除近 32% 的低质量 PSM；再者，采用基于同源性的 GraphPart 算法对序列进行划分时，必须平衡训练集、验证集与测试集的分布，同时移除同源序列以避免过拟合，最终有 390 条独特序列被剔除，这要求算法在保持数据多样性与模型泛化能力之间达成微妙权衡。

常用场景

经典使用场景

在蛋白质组学研究中，翻译后修饰的精准解析一直是揭示细胞信号网络奥秘的核心挑战。InstaNovo-P数据集专为磷酸化肽段从头测序任务而设计，汇聚了来自29个PRIDE项目的超过270万条高置信度肽段谱图匹配（PSM），涵盖74,686条唯一肽段序列，且每条均至少含有一个磷酸化位点。该数据集的经典应用场景是微调磷酸化特异性的从头测序模型，使其能够在无需依赖传统数据库搜索的情况下，直接从质谱碎片谱图中推断出含有磷酸基团的肽段序列。通过同源分区算法（GraphPart）精心划分的训练、验证与测试集，研究者能够在此标准化的资源上训练、优化并公平评估模型性能，推动从头测序技术向磷酸化修饰表征的前沿迈进。

解决学术问题

InstaNovo-P精准回应了蛋白质组学中一个长期悬而未决的难题：如何在缺乏完整蛋白序列数据库或存在未知修饰时，对鉴定的磷酸化肽段进行高置信度、无偏倚的测序。传统数据库搜索方法高度依赖预设库，对未知物种或新位点鉴定束手无策，而磷酸化修饰的易变异性与低丰度进一步加剧了这一困境。该数据集通过提供大规模、高质量且经过严格质控的磷酸化质谱谱图，为开发基于深度学习的从头测序算法提供了宝贵的黄金标准。其科学意义在于搭建了从原始数据到修饰信息直接推断的桥梁，系统性地降低了对先验知识的依赖，从而在分子层面深化对信号转导、细胞周期调控及代谢通路等核心生命过程的理解，并为精准医学中的翻译后修饰全景注释奠定了坚实的数据基石。

实际应用

InstaNovo-P的实际应用价值已延伸至基础生物医学研究与临床前药物开发的众多前沿阵地。通过对该数据集微调的模型，研究者能够从复杂生物样本的质谱数据中自动、高效地识别磷酸化事件，应用于癌症信号通路重编程的动态监测，例如解析肾癌、卵巢癌与前列腺癌中异常激酶活性的分子指纹。在神经科学领域，它能助力刻画神经元中磷酸化调控网络，揭示突触可塑性背后的精细分子开关。此外，在药物靶点发现中，利用该数据集训练的算法可以直接从细胞溶胞物或组织提取物的谱图中解码修饰肽段，辅助识别新的潜在药物靶点或生物标志物，从而显著加速从蛋白质组驱动的基础发现到临床诊断与治疗策略转化的进程。

数据集最近研究