InstaDeepAI/ms_proteometools

Name: InstaDeepAI/ms_proteometools
Creator: InstaDeepAI
Published: 2026-05-06 07:55:51
License: 暂无描述

Hugging Face2026-05-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/ms_proteometools

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自ProteomeTools数据集的最高置信度肽谱匹配，用于训练、验证和测试InstaNovo和InstaNovo+。数据集按独特肽的比例分为训练集（80%）、验证集（10%）和测试集（10%）。数据集为表格形式，每行对应一个标记的MS2光谱，包含目标肽序列（不包括翻译后修饰）、包括翻译后修饰的目标肽序列、前体的质量电荷比（来自MS1）、前体的电荷（来自MS1）、MS2光谱的质量电荷比值和强度值等特征。此外，还包含MaxQuant的额外列，如实验名称、证据索引、扫描号和前体重新校准的质量电荷比。数据集与生物学、质谱、蛋白质组学和新肽测序相关。

This dataset consists of the highest-confidence peptide-spectral matches from three parts of the ProteomeTools datasets, used to train, validate and test InstaNovo and InstaNovo+. The dataset has been split on unique peptides with the following ratio: 80% train, 10% validation, and 10% test. The dataset is tabular, where each row corresponds to a labelled MS2 spectra, including features such as the target peptide sequence excluding post-translational modifications, the target peptide sequence including post-translational modifications, the mass-to-charge of the precursor (from MS1), the charge of the precursor (from MS1), the mass-to-charge values of the MS2 spectrum, and the intensity values of the MS2 spectrum. Additional columns from MaxQuant include experiment name, evidence index, scan number, and precursor recalibrated mz. The dataset is related to biology, mass-spectrometry, proteomics, and de-novo-peptide-sequencing.

提供机构：

InstaDeepAI

原始信息汇总

数据集卡片 - 高置信度 ProteomeTools

数据集描述

数据集概述

该数据集包含来自 ProteomeTools 数据集的三个部分中的最高置信度肽谱匹配。原始数据集可在 PRIDE 存储库中找到，标识符为：

PXD004732（第一部分）
PXD010595（第二部分）
PXD021013（第三部分）

数据集已按唯一肽段分割，比例如下：

80% 训练集
10% 验证集
10% 测试集

数据集结构

数据集为表格形式，每行对应一个标记的 MS2 光谱。

sequence (string) 目标肽序列，不包括翻译后修饰
modified_sequence (string) 目标肽序列，包括翻译后修饰
precursor_mz (float64) 前体（来自 MS1）的质荷比
charge (int64) 前体（来自 MS1）的电荷
mz_array (list[float64]) MS2 光谱的质荷比值
mz_array (list[float32]) MS2 光谱的强度值

MaxQuant 附加列：

experiment_name (string)
evidence_index (int64)
scan_number (int64)
precursor_recalibrated_mz (float64)

数据集信息

特征

experiment_name (string)
evidence_index (int64)
scan_number (int64)
sequence (string)
modified_sequence (string)
precursor_mz (float64)
precursor_recalibrated_mz (float64)
precursor_mass (float64)
precursor_charge (int64)
retention_time (float64)
mz_array (sequence: float32)
intensity_array (sequence: float32)

分割

train
- 字节数: 3370985593
- 样本数: 2132847
validation
- 字节数: 413243959
- 样本数: 257187
test
- 字节数: 421581021
- 样本数: 265369

大小

下载大小: 3944832530 字节
数据集大小: 4205810573 字节

搜集汇总

数据集介绍

构建方式

在蛋白质组学研究领域，高质量的数据集对于推进肽段从头测序技术至关重要。本数据集源自ProteomeTools项目的三个核心部分，通过筛选最高置信度的肽段-谱图匹配构建而成。原始数据来源于PRIDE数据库，标识符分别为PXD004732、PXD010595和PXD021013。构建过程中，依据独特的肽段序列进行了划分，以80%的比例作为训练集，10%作为验证集，10%作为测试集，确保了数据分布的合理性与模型评估的可靠性。

使用方法

在机器学习驱动的蛋白质组学应用中，本数据集专为训练和评估InstaNovo系列模型而设计。用户可通过HuggingFace平台直接加载数据，并按照训练、验证和测试划分进行模型开发。典型的使用流程涉及从数据集中提取肽段序列和质谱特征，作为输入训练扩散模型，以实现大规模的肽段从头测序。研究者需遵循相关引用规范，在学术工作中注明原始ProteomeTools数据及InstaNovo论文的来源。

背景与挑战

背景概述

在蛋白质组学领域，质谱技术已成为解析复杂生物样本中肽段序列的关键工具。由InstaDeepAI团队于2025年构建的High-Confidence ProteomeTools数据集，整合了ProteomeTools项目中三个高置信度肽段-谱图匹配子集，旨在为深度学习模型如InstaNovo提供训练与验证基础。该数据集的核心研究问题聚焦于提升从头肽段测序的准确性与可扩展性，通过提供大量标注的MS2谱图数据，推动了大规模蛋白质组学实验中计算方法的革新，对精准医学和生物标志物发现产生了深远影响。

当前挑战

该数据集致力于解决蛋白质组学中从头肽段测序的挑战，即从质谱谱图中直接推断未知肽段序列，这一过程常受谱图噪声、翻译后修饰多样性以及离子碎片复杂性干扰。在构建过程中，研究人员面临数据整合与标准化的难题，需从多个原始ProteomeTools子集中筛选高置信度匹配，并确保谱图与序列标注的一致性，同时处理大规模数据的分割与平衡，以避免模型过拟合并维持泛化能力。

常用场景

经典使用场景

在蛋白质组学领域，质谱数据的解析一直是核心挑战。InstaDeepAI/ms_proteometools数据集作为高质量肽段-谱图匹配的集合，其经典使用场景在于训练和评估从头肽段测序模型。该数据集整合了ProteomeTools项目的高置信度数据，为机器学习算法提供了标准化的输入输出对，使得研究者能够基于MS2谱图精确预测肽段序列，从而推动蛋白质鉴定技术的自动化与精准化发展。

解决学术问题

该数据集有效解决了蛋白质组学中肽段序列从头测序的准确性瓶颈。传统方法依赖数据库搜索，难以处理未知或修饰肽段，而本数据集通过提供大规模、高置信度的谱图-序列对应关系，支持开发不依赖先验知识的深度学习模型。这显著提升了在复杂样本中鉴定蛋白质的覆盖率和可靠性，为探索蛋白质修饰、突变及新蛋白质发现提供了坚实的数据基础。

实际应用

在实际应用中，该数据集支撑的模型已广泛应用于临床蛋白质组学和生物标志物发现。例如，在癌症研究中，利用其训练的InstaNovo等工具能够直接从患者样本的质谱数据中鉴定疾病相关肽段，加速精准医疗中的蛋白质标志物识别。此外，在药物开发领域，该数据集有助于解析药物-蛋白质相互作用，为靶点验证和疗效评估提供分子层面的洞察。

数据集最近研究