InstaDeepAI/CompOmics_PRIDE
收藏Hugging Face2026-05-06 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/CompOmics_PRIDE
下载链接
链接失效反馈官方服务:
资源简介:
CompOmics PRIDE数据集是从18个公共PRIDE蛋白质组学项目中组装的,分为训练集、验证集和测试集。该数据集是用于训练InstaNovo模型(一种新肽段测序模型)的训练数据的一部分。数据集包含8,289,063行数据,每行包含多个特征,如序列、修饰序列、前体m/z、前体质量等。这些数据来源于多个PRIDE项目,每个项目都有详细的引用信息。数据集主要用于蛋白质组学和新肽段测序研究。
Data assembled from 18 public PRIDE proteomics projects, partitioned into train, validation, and test splits. This dataset was part of the training data for the de novo peptide sequencing model InstaNovo. The dataset contains 8,289,063 rows, each with multiple features such as sequence, modified sequence, precursor m/z, precursor mass, etc. The data comes from multiple PRIDE projects, each with detailed citation information. The dataset is primarily used for proteomics and de novo peptide sequencing research.
提供机构:
InstaDeepAI
搜集汇总
数据集介绍

构建方式
CompOmics_PRIDE数据集源于18项已公开的PRIDE蛋白质组学项目,汇聚了超过828万条高置信度肽段谱图匹配记录。构建过程中,研究者从不同物种、组织及病理状态的质谱实验中提取原始数据,经统一的质量过滤与特征提取后,按照项目维度分层划分,形成训练集(约699万条)、验证集(约12万条)与测试集(约117万条),确保各拆分均覆盖全部18个项目,以维持数据分布的完整性。
特点
该数据集的核心特色在于其多维度的注释体系与规模化构造。每条记录不仅包含原始的质荷比及强度序列,还提供了前体离子属性、理论质量偏差、保留时间、评分及错误率等关键质控指标。尤为重要的是,数据集中纳入了修饰序列与修饰字符串,为翻译后修饰的定位与识别提供了宝贵资源。此外,每项数据均关联其来源的PRIDE项目标识符,便于溯源与引用。
使用方法
CompOmics_PRIDE专为从头肽测序任务设计,常作为深度学习模型的训练与评估基准。用户可通过HuggingFace Datasets库加载其预划分的parquet文件,并直接读取sequence、mz_array及intensity_array等核心字段用于模型输入。建议在使用时引用原始InstaNovo论文及所涉及的PRIDE项目出版物,以尊重数据贡献者的学术劳动。
背景与挑战
背景概述
在蛋白质组学领域,质谱数据的解读长期依赖数据库搜索,但该方法难以识别未知或修饰肽段,催生了从头测序技术的发展。CompOmics_PRIDE数据集由InstaDeep研究人员于2025年构建,整合自欧洲PRIDE数据库中的18个公共蛋白质组学项目,包含超过800万条质谱谱图-肽段序列对。该数据集旨在为深度学习驱动的从头测序模型提供高质量训练资源,其核心研究问题在于克服传统搜索算法对参考数据库的依赖,提升复杂生物样本中肽段序列鉴定的覆盖度与准确性。作为InstaNovo模型(发表于《Nature Machine Intelligence》)的训练基石,该数据集推动了大规模蛋白质组学分析方法的革新,为疾病机制研究和生物标志物发现提供了关键数据支撑。
当前挑战
该数据集所解决的领域问题在于传统肽段鉴定方法受限于数据库完整性,难以处理翻译后修饰、突变或新抗原等非常规序列。深度学习模型的性能高度依赖于训练数据的规模与质量,而构建过程中面临多重挑战:首先,需从跨物种、多组织的异质性PRIDE项目中提取统一格式的谱图数据,并确保不同实验条件(如仪器类型、色谱梯度、碎裂方式)下的谱图可比性;其次,肽段序列的准确注释依赖于高效的质量控制,包括过滤低置信度匹配、处理同分异构体与修饰位点归属模糊性;此外,数据划分需平衡各项目样本分布,避免模型在训练时产生偏差,进而保障其在未知谱图上的泛化能力。
常用场景
经典使用场景
CompOmics_PRIDE数据集在蛋白质组学研究中扮演着关键角色,尤其适用于从头肽测序(de novo peptide sequencing)任务的模型训练与评估。该数据集整合了来自18个公开PRIDE蛋白质组学项目的超过800万条质谱谱图,涵盖多种物种(如小鼠、大鼠、猪)和复杂生物样本(如脑组织、肝脏、心脏、肌腱等)。研究者可利用其丰富的谱图信息,包括m/z阵列、强度阵列、保留时间及质量误差等特征,构建和验证能够直接从质谱数据中推断肽段序列的深度学习模型。这一场景不仅支持传统数据库搜索方法的补充,更推动了对未知肽段和新蛋白质变体的识别,尤其在翻译后修饰分析中展现出独特优势。
解决学术问题
该数据集解决了蛋白质组学中一个长期存在的核心难题:如何在不依赖预先构建的蛋白质序列数据库的情况下,准确鉴定肽段序列。传统数据库搜索方法在面对未知物种、新蛋白变体或大规模翻译后修饰时存在显著局限,而CompOmics_PRIDE通过提供大规模、高质量、标注完备的质谱数据,为开发新一代从头测序算法奠定了坚实基础。其学术意义在于,它首次系统性地将多个异质性项目的谱图进行统一整合,促进了深度学习在蛋白质鉴定领域的突破,例如用于InstaNovo模型的训练,显著提升了大规模蛋白质组学实验中序列推断的覆盖度和准确性,从而深化了对复杂生物系统分子机制的理解。
衍生相关工作
该数据集衍生了多个经典的开创性工作,其中最引人注目的是InstaNovo模型,它利用扩散模型实现了从头肽测序,在《Nature Machine Intelligence》上发表,标志着蛋白质组学在人工智能领域的重大突破。此外,该数据集也为后续的序列比对算法(如改进版的DeepNovo)提供了训练基准,催生了一系列关于翻译后修饰定位(如磷酸化、泛素化)的深度学习工具。研究者还基于此数据集探索了多任务学习框架,同时预测肽段序列和修饰位点,极大提升了分析通量。这些工作不仅验证了大规模质谱数据在模型训练中的价值,更推动了蛋白质组学从定性分析向定量和动态分析的跨越,为系统生物学研究开辟了新路径。
以上内容由遇见数据集搜集并总结生成



