PRING

Name: PRING
Creator: 新加坡国立大学, 上海人工智能实验室, 西湖大学, 上海创新研究所, 复旦大学, 香港中文大学, 西安交通大学
Published: 2025-07-07 23:21:05
License: 暂无描述

arXiv2025-07-07 更新2025-07-09 收录

下载链接：

https://github.com/SophieSarceau/PRING

下载链接

链接失效反馈

官方服务：

资源简介：

PRING是一个全面的基准测试，用于从图的角度评估蛋白质-蛋白质相互作用（PPI）预测。该数据集包含来自四个物种（人类、拟南芥、大肠杆菌和酵母）的高质量PPI网络数据，共有21,484个蛋白质和186,818个相互作用。数据集采用了精心设计的策略，以解决数据冗余和泄漏问题。基于这个金标准数据集，我们建立了两种互补的评价范式：拓扑导向任务和功能导向任务。这些评价不仅反映了模型理解网络拓扑的能力，还促进了蛋白质功能注释、生物模块检测甚至疾病机制分析。广泛实验表明，现有的PPI模型在恢复PPI网络的结构和功能特性方面存在局限性，突出了支持现实世界生物应用的差距。

PRING is a comprehensive benchmark for evaluating protein-protein interaction (PPI) prediction from a graph-theoretic perspective. This dataset contains high-quality PPI network data from four species: Homo sapiens (human), Arabidopsis thaliana, Escherichia coli, and Saccharomyces cerevisiae (yeast), encompassing a total of 21,484 proteins and 186,818 interactions. The dataset adopts a meticulously designed strategy to address issues of data redundancy and data leakage. Building upon this gold-standard dataset, we establish two complementary evaluation paradigms: topology-oriented tasks and function-oriented tasks. These evaluations not only reflect a model's ability to comprehend network topology, but also facilitate protein function annotation, biological module detection, and even disease mechanism analysis. Extensive experiments have revealed that existing PPI models exhibit limitations in recovering the structural and functional properties of PPI networks, highlighting the gaps in supporting real-world biological applications.

提供机构：

新加坡国立大学, 上海人工智能实验室, 西湖大学, 上海创新研究所, 复旦大学, 香港中文大学, 西安交通大学

创建时间：

2025-07-07

原始信息汇总

PRING数据集概述

数据集基本信息

数据集名称：PRING (Protein-Protein Interaction Prediction from Pairs to Graphs)
研究领域：蛋白质-蛋白质相互作用(PPI)预测
主要任务：
- 拓扑导向任务(Topology-oriented Task)
- 功能导向任务(Function-oriented Task)

拓扑导向任务

1.1 种内PPI网络生成(人类)

数据文件：
- ./pring_dataset/human/BFS/human_train_ppi.txt (训练集)
- ./pring_dataset/human/BFS/human_val_ppi.txt (验证集)
- ./pring_dataset/human/BFS/human_all_test_ppi.txt (测试集)
- ./pring_dataset/human/human_simple.fasta (蛋白质序列)
评估文件：
- ./pring_dataset/human/human_all_test_ppi_pred.txt
- ./pring_dataset/human/human_test_graph.pkl
- ./pring_dataset/human/human_BFS_sampled_nodes.pkl
评估指标：
- 图相似度
- 相对密度
- 度分布(MMD)
- 聚类系数(MMD)
- 谱分析(MMD)

1.2 跨物种PPI网络生成(拟南芥、酵母、大肠杆菌)

示例数据文件(拟南芥)：
- ./pring_dataset/arath/arath_all_test_ppi.txt
- ./pring_dataset/arath/arath_test_graph.pkl
- ./pring_dataset/arath/arath_BFS_sampled_nodes.pkl

功能导向任务

2.1 蛋白质复合物通路预测

数据文件：
- ./pathway_data/complex_test_pairs.txt
- ./pathway_data/complex_proteins.fasta
- ./pathway_data/complex_graphs.pkl
评估指标：
- 通路召回率
- 通路精确率
- 通路连通性

2.2 GO富集分析

数据文件：
- ./pring_dataset/human/human_all_test_ppi_pred.txt
- ./pring_dataset/human/human_test_graph.pkl
评估指标：
- 功能对齐
- 一致性比率

2.3 必需蛋白质验证

数据文件：
- ./pring_dataset/human/human_all_test_ppi_pred.txt
- ./pring_dataset/human/human_test_graph.pkl
评估指标：
- Precision@K
- 分布重叠

数据获取

下载地址：https://doi.org/10.7910/DVN/22AUPR
存放位置：./pring_dataset文件夹

搜集汇总

数据集介绍

构建方式

PRING数据集通过整合来自UniProt、IntAct、Reactome和STRING等多个公共数据库的高质量蛋白质相互作用数据构建而成。为确保数据质量，采用了严格的筛选策略，包括保留SwissProt注释的蛋白质、选择四个代表性物种（人类、拟南芥、大肠杆菌和酵母）以及通过MMSeqs2进行序列相似性检查（序列同一性≤40%）。此外，采用无泄漏的数据分割协议，确保训练集和测试集之间无蛋白质重叠，最终构建了一个包含21,484个蛋白质和186,818个相互作用的多物种PPI网络数据集。

使用方法

PRING数据集支持两种主要使用模式：一是通过拓扑导向任务评估模型重建PPI网络的能力，包括使用BFS/DFS/RW算法采样子图进行网络相似性、相对密度等指标计算；二是通过功能导向任务验证模型的生物学实用性，如基于Reactome通路数据评估复合物预测精度，或利用Louvain算法检测功能模块的GO富集一致性。用户可通过标准化接口加载预处理的数据分割（如人类数据8:2划分），或直接调用评估工具计算五大类任务指标。所有任务设计均强调网络级语义而非传统二元分类，需注意输入应为蛋白质序列或嵌入，输出需转换为全连接图的预测矩阵。

背景与挑战

背景概述

PRING（Protein-Protein Interaction prediction from a Graph perspective）是首个从图视角全面评估蛋白质-蛋白质相互作用（PPI）预测的基准数据集，由新加坡国立大学、上海人工智能实验室等机构的研究团队于2025年创建。该数据集整合了UniProt、STRING等权威数据库的高质量多物种PPI数据，涵盖21,484个蛋白质和186,818个相互作用，通过严格的序列相似性检查和防数据泄漏策略确保数据可靠性。PRING创新性地提出拓扑导向和功能导向的双重评估范式，突破传统PPI预测仅关注二元分类的局限，为系统生物学研究和精准医疗应用提供了重要工具。

当前挑战

PRING面临的挑战主要体现在两个方面：在领域问题层面，现有PPI预测模型难以同时保持生物网络的拓扑稀疏性和功能模块性，导致重建的网络过度稠密且功能一致性低；在构建过程中，需解决多源数据冗余（如40%序列相似性阈值设定）、跨物种进化距离导致的泛化性差异，以及防止蛋白质功能ID泄漏等技术难题。实验表明，当前最优模型PLM-interact在人类PPI网络重建中的图相似度仍低于0.5，且关键蛋白质识别任务中分布重叠度达0.44，凸显模型与真实生物应用的差距。

常用场景

经典使用场景

PRING数据集在蛋白质-蛋白质相互作用（PPI）预测领域具有广泛的应用场景，尤其在评估模型从成对预测扩展到网络级重建的能力方面表现突出。该数据集通过整合来自多个物种的高质量PPI网络，为研究者提供了一个可靠的平台，用于测试模型在重建生物网络拓扑结构和功能模块方面的性能。经典使用场景包括评估模型在跨物种PPI预测中的泛化能力，以及验证模型在复杂生物通路重建中的准确性。

解决学术问题

PRING数据集解决了当前PPI预测研究中的几个关键学术问题。首先，它填补了现有基准测试主要关注孤立成对评估而忽略网络级性能的空白。其次，通过设计拓扑导向和功能导向的任务，该数据集使研究者能够全面评估模型在重建PPI网络结构和功能特性方面的能力。此外，PRING还解决了数据冗余和泄漏问题，通过严格的过滤和分割策略确保了评估的公平性。这些创新为开发更可靠的PPI预测模型提供了重要指导。

实际应用

在实际应用方面，PRING数据集为多个生物医学研究领域提供了有力支持。在疾病机制研究中，该数据集可用于识别与疾病相关的关键蛋白质相互作用网络。在药物发现领域，它有助于预测潜在的药物靶点和药物-靶点相互作用。此外，PRING还支持蛋白质功能注释和生物模块检测，为系统生物学研究提供了重要工具。这些应用展示了该数据集在推动精准医学和生物技术发展方面的巨大潜力。

数据集最近研究