新 refined phosphorylation site prediction dataset
收藏arXiv2025-02-11 更新2025-02-26 收录
下载链接:
https://github.com/ZhangJJ26/SAGEPhos
下载链接
链接失效反馈官方服务:
资源简介:
本文贡献了一个新的 refined 磷酸化位点预测数据集,该数据集纳入了关键的结构元素,旨在为磷酸化位点预测任务提供一个新的基准。数据集的创建是为了克服当前数据集中缺乏结构信息的局限,以便更准确地预测磷酸化位点。
This work contributes a novel refined phosphorylation site prediction dataset, which incorporates critical structural elements and aims to establish a new benchmark for the phosphorylation site prediction task. This dataset was developed to overcome the limitation of missing structural information in current datasets, thereby enabling more accurate prediction of phosphorylation sites.
提供机构:
香港中文大学计算机科学与工程学院,浙江大学药学院
创建时间:
2025-02-11
搜集汇总
数据集介绍

构建方式
新 refined phosphorylation site prediction dataset 是由香港中文大学计算机科学与工程系和浙江大学药学院的研究团队构建的,旨在为磷酸化位点预测提供一个新的基准数据集。该数据集整合了蛋白质序列、结构和激酶序列信息,通过生物耦合和生物增强融合方法,对蛋白质输入的语义空间进行修改。在跨模态层面,SAGEPhos 引入了一种生物耦合模态融合方法,将关键的激酶序列信息提炼出来,以细化任务导向的局部底物特征空间,从而创建一个共享的语义空间,捕捉关键的激酶-底物相互作用模式。在底物的单模态领域,它关注生物增强融合,强调 2D 局部序列信息,同时选择性地结合来自预测结构的 3D 空间信息,以补充序列空间。此外,为了解决当前数据集中缺乏结构信息的问题,该数据集还包含了关键的结构元素。
特点
新 refined phosphorylation site prediction dataset 的特点是它整合了蛋白质序列、结构和激酶序列信息,并通过生物耦合和生物增强融合方法,对蛋白质输入的语义空间进行修改。这使得该数据集能够捕捉到关键的激酶-底物相互作用模式,从而提高了磷酸化位点预测的准确性。此外,该数据集还包含了关键的结构元素,为磷酸化位点预测提供了新的基准。
使用方法
新 refined phosphorylation site prediction dataset 可以用于磷酸化位点预测的研究。研究人员可以使用该数据集来训练和测试他们的预测模型,并评估模型的性能。此外,该数据集还可以用于研究激酶-底物相互作用,以及磷酸化位点在细胞信号通路和疾病机制中的作用。
背景与挑战
背景概述
蛋白质的翻译后修饰(PTMs)对于理解细胞信号通路和疾病机制至关重要。磷酸化作为其中最重要的PTMs之一,通过激活或去激活蛋白质,细胞能够调节包括代谢途径和激酶级联激活在内的多种过程。为了准确预测磷酸化位点,研究者们开发了多种计算方法。SAGEPHOS数据集正是在这一背景下创建的,旨在解决现有方法对结构信息的忽视,通过引入SAGEPHOS(Structure-aware kinAse-substrate bio-coupled and bio-augmented nEtwork for Phosphorylation site prediction)框架,将主要蛋白质输入的语义空间进行修改,同时整合辅助输入的两个不同模式级别。该数据集的创建由香港中文大学计算机科学与工程系和浙江大学药学院的研究人员共同完成,并发表于ICLR 2025会议论文中。SAGEPHOS框架通过引入Bio-Coupled Modal Fusion和Bio-Augmented Fusion方法,有效地捕捉了关键的激酶-底物相互作用模式,为磷酸化位点预测领域提供了新的基准数据集。
当前挑战
SAGEPHOS数据集面临的挑战包括:1)整合底物序列和结构信息,以克服现有方法对结构信息的忽视;2)构建过程中遇到的挑战,如数据质量、假阳性率和处理大规模数据集的能力;3)尽管SAGEPHOS在预测精度和AUC-ROC方面取得了显著提升,但仍然存在假阳性率较高的问题,需要进一步优化。此外,SAGEPHOS在处理冷启动场景下的性能有所下降,特别是在缺乏完整激酶家族的情况下,需要进一步提升模型对未见激酶的理解和预测能力。
常用场景
经典使用场景
该数据集主要用于磷酸化位点预测,通过分析激酶和底物之间的相互作用,以及底物的序列和结构信息,来预测哪些氨基酸残基可能被磷酸化。这对于理解细胞信号通路和疾病机制至关重要。
实际应用
该数据集的实际应用场景包括药物开发、疾病机制研究和蛋白质功能分析。它可以帮助研究人员更准确地预测磷酸化位点,从而设计更有效的药物和治疗方法。
衍生相关工作
该数据集衍生了SAGEPhos模型,这是一个基于结构的激酶-底物生物耦合和生物增强网络,用于磷酸化位点预测。该模型通过整合多模态输入,显著提高了预测准确性。
以上内容由遇见数据集搜集并总结生成



