Wilhelmlab/prospect-ptms-charge

Name: Wilhelmlab/prospect-ptms-charge
Creator: Wilhelmlab
Published: 2024-08-13 18:15:09
License: 暂无描述

Hugging Face2024-08-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Wilhelmlab/prospect-ptms-charge

下载链接

链接失效反馈

官方服务：

资源简介：

PROSPECT PTMs数据集是一个用于质谱分析中前体电荷状态预测的机器学习数据集。该数据集由慕尼黑工业大学Wilhelmlab整理，基于Zenodo上的PROSPECT PTMs数据集。数据集包含两个配置：default和holdout，分别用于训练/验证/测试和最终模型评估。数据集的结构包括多个特征，如修改后的序列、原始文件、扫描号、包、最丰富的电荷状态、观察到的电荷状态和电荷状态分布。数据集不包含个人、敏感或私人数据。

The PROSPECT PTMs dataset is a mass-spectrometry dataset for applied machine learning in proteomics, specifically for precursor charge state prediction. Curated by Wilhelmlab at the Technical University of Munich, the dataset is based on the PROSPECT PTMs datasets hosted on Zenodo. It includes two configurations: default and holdout, intended for training/validation/testing and final model evaluation, respectively. The dataset structure comprises features such as modified sequence, raw file, scan number, package, most abundant charge state, observed charge states, and charge state distribution. The dataset does not contain any personal, sensitive, or private data.

提供机构：

Wilhelmlab

原始信息汇总

数据集概述

数据集名称

名称: PROSPECT PTMs - Precursor Charge Prediction

数据集配置

配置名称: default, holdout

数据集特征

特征名称: modified_sequence, raw_file, scan_number, charge_by_max_intensity, one_hot_most_abundant_charge, charge_state_vector, normalized_intensity_distribution
数据类型: string, int64, float64

数据集分割

default配置:
- train: 1135350 examples, 3123318666 bytes
- val: 326007 examples, 903602957 bytes
- test: 160572 examples, 453726869 bytes
holdout配置:
- test: 42270 examples, 165662409 bytes

数据集大小

default配置: 4480648492 bytes
holdout配置: 165662409 bytes

下载大小

default配置: 460990614 bytes
holdout配置: 10112261 bytes

数据集用途

用途: 用于预测肽序列的前体电荷状态

数据集结构

default配置: 基于所有Zenodo PROSPECT PTMs数据集
holdout配置: 基于PROSPECT Test-PTM数据集

数据集加载示例

python

main data for training and evaluation

main_dataset = load_dataset("Wilhelmlab/prospect-ptms-charge")

holdout data for final benchmarking

holdout_dataset = load_dataset("Wilhelmlab/prospect-ptms-charge", "holdout")

搜集汇总

数据集介绍

构建方式

在蛋白质组学研究中，前体电荷状态预测是质谱数据分析的关键环节。该数据集基于ProteomeTools项目及PROSPECT PTMs数据库构建，从Zenodo平台获取原始质谱数据后，经系统性处理与划分形成。数据以肽段序列为核心，通过聚合原始数据中的电荷信息，生成三种标注形式：most_abundant_charge_state（单热编码的主导电荷状态）、observed_charge_states（k热编码的所有可能电荷状态）以及charge_state_dist（基于序列所有出现的电荷比例分布）。数据集包含default和holdout两种配置，前者划分为训练、验证和测试集，后者专用于最终模型评估。

特点

该数据集专为前体电荷状态预测任务设计，具有鲜明的领域适配性。其特色在于提供了多层次的电荷状态标签，既能支持离散分类（如最丰电荷态），也能处理多标签预测（如观测电荷态）或分布回归（如电荷比例），灵活适应不同建模需求。数据来源涵盖多类型翻译后修饰（PTMs），并保留了原始实验环境信息（如raw_file、scan_number），允许模型整合额外特征。此外，holdout配置作为独立测试集，确保了模型泛化能力的公正评估，避免了数据泄露风险。

使用方法

使用者可通过HuggingFace的datasets库便捷加载数据。加载default配置时，直接调用load_dataset('Wilhelmlab/prospect-ptms-charge')即可获取包含训练、验证和测试划分的主数据集；若需使用holdout配置进行最终基准测试，则需指定参数为load_dataset('Wilhelmlab/prospect-ptms-charge', 'holdout')，该配置仅包含测试集。数据以modified_sequence（修饰后肽段序列）为输入特征，结合raw_file、scan_number等可选的实验元数据，配合三种电荷标签之一构建模型。推荐在研究迭代末期使用holdout数据评估模型性能，以实现客观对比。

背景与挑战

背景概述

在蛋白质组学领域，质谱技术已成为解析蛋白质修饰与功能的核心工具，然而前体离子电荷状态的准确预测仍是计算分析中的关键瓶颈。Wilhelmlab团队于2024年在德国慕尼黑工业大学生命科学学院创建了PROSPECT PTMs电荷预测数据集，旨在为深度学习模型提供标准化基准。该数据集基于ProteomeTools项目的大规模合成肽段数据，整合了多翻译后修饰（PTMs）信息，通过处理Zenodo仓库中的原始质谱数据，构建了包含超过163万个样本的训练、验证与测试划分。其核心研究问题聚焦于从肽段序列出发预测前体电荷状态分布，为质谱数据解析中的电荷分配难题提供数据驱动的解决方案，显著推动了蛋白质组学与机器学习的交叉研究。

当前挑战

该数据集面临的核心挑战在于多维度复杂性。首先，质谱分析中前体电荷状态的预测受肽段长度、氨基酸组成及翻译后修饰的显著影响，不同实验条件（如液相色谱梯度、电离效率）会引入系统性偏差，导致模型泛化困难。其次，数据构建过程中需处理原始谱图中电荷状态分布的稀疏性与噪声，尤其是低丰度肽段的电荷分配存在多解性，而翻译后修饰（如磷酸化、乙酰化）的多样性与组合爆炸效应进一步加剧了标注歧义。此外，跨平台数据整合时，不同质谱仪器的分辨率差异与数据格式不统一，要求对原始信号进行精细归一化与特征对齐，这构成了构建高质量基准数据集的技术壁垒。

常用场景

经典使用场景

在蛋白质组学与质谱分析的交汇领域，PROSPECT PTMs电荷状态预测数据集为基于肽段序列的前体电荷预测任务提供了标准化基准。该数据集整合了来自ProteomeTools项目的合成人类蛋白质组质谱数据，包含超过160万条经过处理的肽段-电荷对应关系，并精心划分为训练、验证与测试子集。研究者可借助其中三种标注形式——多数丰度电荷状态、观测电荷状态二值化向量及电荷状态分布比例——灵活构建深度学习模型，从而精准预测给定修饰肽段在电喷雾电离过程中呈现的电荷分布模式。

衍生相关工作

围绕PROSPECT PTMs电荷数据集已衍生出一系列开创性工作。其上游ProteomeTools项目系统构建了包含21种翻译后修饰的合成肽段库，为电荷预测提供了高质量数据源。在此基础上，Wilhelmlab团队进一步开发了PROSPECT框架，整合多修饰类型与TMT标记数据，推动了深度学习模型在肽段电荷预测领域的标准化评估。这些工作不仅催生了诸如Transformer架构的电荷预测模型，还促进了跨实验室、跨仪器平台的电荷预测通用基准的建立，深刻影响了计算蛋白质组学的发展方向。

数据集最近研究