InstaDeepAI/winnow-ms-datasets

Name: InstaDeepAI/winnow-ms-datasets
Creator: InstaDeepAI
Published: 2026-05-06 07:57:02
License: 暂无描述

Hugging Face2026-05-06 更新2026-01-03 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/winnow-ms-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于展示Winnow在去新肽测序输出中的置信度校准和无标签FDR控制（通过InstaNovo实现）。数据集包含多个文件，涵盖了不同实验条件下的质谱数据和预测结果，如HeLa Single Shot、HeLa Degradome、C. elegans等。数据集的原始数据来源包括PRIDE仓库、figshare和PanoramaWeb等多个公开数据库。

Training and benchmark datasets for demonstrating Winnow’s confidence calibration and label-free FDR control on de novo peptide sequencing outputs (via InstaNovo). The repository provides various files including spectrum metadata, MS/MS inputs, and InstaNovo beam predictions aligned to different datasets such as HeLa Single Shot, HeLa Degradome, and C. elegans. Original data sources include PRIDE repository, figshare, and PanoramaWeb.

提供机构：

InstaDeepAI

搜集汇总

数据集介绍

构建方式

在蛋白质组学领域，质谱数据的可信度评估是解析复杂生物样本的关键环节。winnow-ms-datasets数据集专为展示Winnow工具对从头肽段测序结果进行置信度校准与无标记FDR控制而构建，其构建融合了多源公开质谱数据。数据来源于HeLa单次快照、HeLa降解组、Candidatus Scalindua Brodae、HepG2、赫赛汀、免疫肽组学、蛇毒及伤口渗出液等多个独立研究，并经过InstaNovo模型的束搜索预测对齐。数据集以parquet与csv格式存储，既包含已标注光谱元数据及MS/MS输入，也囊括未经标注的原始谱图，为训练与基准测试提供了分层结构。

使用方法

使用该数据集主要依托Winnow工具链，用户需从HuggingFace加载parquet或csv文件。已标注数据如helaqc_labelled.parquet可用于训练校准模型，而helaqc_raw_less_train.parquet等未标注数据则适合验证无标签FDR性能。配合对应的beams.csv文件，用户可引入InstaNovo的束预测结果，运行Winnow的校准与统计控制流程。建议通过Python的pandas库读取数据，并参照Winnow GitHub仓库的示例代码进行实验复现，同时引用相关研究以确保学术规范。

背景与挑战

背景概述

质谱技术在现代蛋白质组学中占据核心地位，通过串联质谱（MS/MS）产生的碎片图谱，研究人员能够解析生物样本中肽段的序列信息，进而推断蛋白质组成与功能。然而，传统的数据库搜索方法高度依赖已知蛋白质序列库，在面对未知肽段、翻译后修饰或新抗原时往往力不从心，为此，从头测序技术应运而生。Winnow MS Datasets由InstaDeep团队于2025年发布，旨在服务于Winnow工具，用于对从头测序模型InstaNovo的输出进行置信度校准和无标签错误发现率控制。该数据集整合了HeLa单次轰击、C. elegans、免疫肽组学等多个公开质谱数据集，覆盖了从标准细胞系到特殊样本的广泛生物学场景，为评估和改进从头测序结果的可靠性提供了标准化基准，对推动蛋白质组学可信计算具有重要影响力。

当前挑战

该数据集所解决的核心领域问题是：从头肽段测序结果缺乏统一的置信度评估与错误发现率控制机制。现有方法难以区分高置信预测与假阳性，尤其在大规模非标记样本中，这一挑战尤为突出。构建过程中，团队面临多重障碍：不同来源的数据集在采集仪器、碎裂方式、样本制备上存在显著异质性，需统一格式并确保兼容性；同时，人工标注数据的稀缺性与高昂获取成本，限制了监督学习的训练规模；此外，对未标注数据的有效利用、以及将预测结果与真实肽段序列的精确对齐，都要求精密的算法设计与计算资源投入。

常用场景

经典使用场景

在蛋白质组学领域，Winnow MS Datasets（又称InstaNovo数据集）作为一项关键资源，专为从头测序（de novo peptide sequencing）结果的置信度校准与无标记错误发现率（FDR）控制而设计。该数据集整合了来自不同物种与实验条件的质谱数据，涵盖人类宫颈癌细胞（HeLa）、肝细胞系（HepG2）、线虫（C. elegans）及蛇毒蛋白组等多维样本，并提供了已标注与未标注的谱图元数据及InstaNovo模型预测的束（beam）结果。研究者和开发者常利用这些数据对Winnow方法进行训练与基准测试，以评估其在复杂蛋白质组样本中提升肽段鉴定的可靠性和准确性的能力。通过将预测结果与实际标注对齐，该数据集为验证新颖的统计校准策略和FDR估计框架提供了标准化的实验平台。

解决学术问题

该数据集的核心学术价值在于解决了蛋白质组学中从头测序结果置信度评估这一长期难题。传统数据库搜索方法依赖于已知蛋白序列库，而从头测序虽可捕捉未被注释的肽段，却饱受高假阳性率与缺乏可靠统计框架的困扰。Winnow MS Datasets通过提供多源标注数据，使研究者能够开发并验证基于标签的FDR控制方法，从而系统性地提升从头测序的可信度。这一突破不仅完善了质谱数据分析的理论体系，还推动了无标记定量方法在发现新蛋白变体、翻译后修饰及非模式生物蛋白质组中的应用，显著拓展了蛋白质组学探索的边界。

实际应用

在实际应用层面，该数据集支撑了从基础生物学到临床诊断的多维度蛋白质组学任务。例如，在免疫肽组学中，它帮助鉴定肿瘤或感染细胞表面呈现的异常肽段，为疫苗设计与免疫治疗靶点发现提供线索；在毒液蛋白组学中，它助力解析蛇毒等复杂混合物中的活性成分，加速抗毒血清与药物研发。此外，针对伤口渗出液等临床样本，该数据集上的FDR校准技术能够提升低丰度蛋白的检测可靠性，促进生物标志物的发现。这些应用均依赖于数据集提供的丰富谱图元数据与对齐预测，为实际分析流程中不确定性的量化和误差控制树立了标杆。

数据集最近研究