PRING|生物信息学数据集|蛋白质相互作用数据集

arXiv2025-07-07 更新2025-07-09 收录

生物信息学

蛋白质相互作用

下载链接：

https://github.com/SophieSarceau/PRING

下载链接

链接失效反馈

资源简介：

PRING是一个全面的基准测试，用于从图的角度评估蛋白质-蛋白质相互作用（PPI）预测。该数据集包含来自四个物种（人类、拟南芥、大肠杆菌和酵母）的高质量PPI网络数据，共有21,484个蛋白质和186,818个相互作用。数据集采用了精心设计的策略，以解决数据冗余和泄漏问题。基于这个金标准数据集，我们建立了两种互补的评价范式：拓扑导向任务和功能导向任务。这些评价不仅反映了模型理解网络拓扑的能力，还促进了蛋白质功能注释、生物模块检测甚至疾病机制分析。广泛实验表明，现有的PPI模型在恢复PPI网络的结构和功能特性方面存在局限性，突出了支持现实世界生物应用的差距。

提供机构：

新加坡国立大学, 上海人工智能实验室, 西湖大学, 上海创新研究所, 复旦大学, 香港中文大学, 西安交通大学

创建时间：

2025-07-07

原始信息汇总

PRING数据集概述

数据集基本信息

数据集名称：PRING (Protein-Protein Interaction Prediction from Pairs to Graphs)
研究领域：蛋白质-蛋白质相互作用(PPI)预测
主要任务：
- 拓扑导向任务(Topology-oriented Task)
- 功能导向任务(Function-oriented Task)

拓扑导向任务

1.1 种内PPI网络生成(人类)

数据文件：
- ./pring_dataset/human/BFS/human_train_ppi.txt (训练集)
- ./pring_dataset/human/BFS/human_val_ppi.txt (验证集)
- ./pring_dataset/human/BFS/human_all_test_ppi.txt (测试集)
- ./pring_dataset/human/human_simple.fasta (蛋白质序列)
评估文件：
- ./pring_dataset/human/human_all_test_ppi_pred.txt
- ./pring_dataset/human/human_test_graph.pkl
- ./pring_dataset/human/human_BFS_sampled_nodes.pkl
评估指标：
- 图相似度
- 相对密度
- 度分布(MMD)
- 聚类系数(MMD)
- 谱分析(MMD)

1.2 跨物种PPI网络生成(拟南芥、酵母、大肠杆菌)

示例数据文件(拟南芥)：
- ./pring_dataset/arath/arath_all_test_ppi.txt
- ./pring_dataset/arath/arath_test_graph.pkl
- ./pring_dataset/arath/arath_BFS_sampled_nodes.pkl

功能导向任务

2.1 蛋白质复合物通路预测

数据文件：
- ./pathway_data/complex_test_pairs.txt
- ./pathway_data/complex_proteins.fasta
- ./pathway_data/complex_graphs.pkl
评估指标：
- 通路召回率
- 通路精确率
- 通路连通性

2.2 GO富集分析

数据文件：
- ./pring_dataset/human/human_all_test_ppi_pred.txt
- ./pring_dataset/human/human_test_graph.pkl
评估指标：
- 功能对齐
- 一致性比率

2.3 必需蛋白质验证

数据文件：
- ./pring_dataset/human/human_all_test_ppi_pred.txt
- ./pring_dataset/human/human_test_graph.pkl
评估指标：
- Precision@K
- 分布重叠

数据获取

下载地址：https://doi.org/10.7910/DVN/22AUPR
存放位置：./pring_dataset文件夹

AI搜集汇总

数据集介绍

构建方式

PRING数据集通过整合来自UniProt、IntAct、Reactome和STRING等多个公共数据库的高质量蛋白质相互作用数据构建而成。为确保数据质量，采用了严格的筛选策略，包括保留SwissProt注释的蛋白质、选择四个代表性物种（人类、拟南芥、大肠杆菌和酵母）以及通过MMSeqs2进行序列相似性检查（序列同一性≤40%）。此外，采用无泄漏的数据分割协议，确保训练集和测试集之间无蛋白质重叠，最终构建了一个包含21,484个蛋白质和186,818个相互作用的多物种PPI网络数据集。

使用方法

PRING数据集支持两种主要使用模式：一是通过拓扑导向任务评估模型重建PPI网络的能力，包括使用BFS/DFS/RW算法采样子图进行网络相似性、相对密度等指标计算；二是通过功能导向任务验证模型的生物学实用性，如基于Reactome通路数据评估复合物预测精度，或利用Louvain算法检测功能模块的GO富集一致性。用户可通过标准化接口加载预处理的数据分割（如人类数据8:2划分），或直接调用评估工具计算五大类任务指标。所有任务设计均强调网络级语义而非传统二元分类，需注意输入应为蛋白质序列或嵌入，输出需转换为全连接图的预测矩阵。

背景与挑战

背景概述

PRING（Protein-Protein Interaction prediction from a Graph perspective）是首个从图视角全面评估蛋白质-蛋白质相互作用（PPI）预测的基准数据集，由新加坡国立大学、上海人工智能实验室等机构的研究团队于2025年创建。该数据集整合了UniProt、STRING等权威数据库的高质量多物种PPI数据，涵盖21,484个蛋白质和186,818个相互作用，通过严格的序列相似性检查和防数据泄漏策略确保数据可靠性。PRING创新性地提出拓扑导向和功能导向的双重评估范式，突破传统PPI预测仅关注二元分类的局限，为系统生物学研究和精准医疗应用提供了重要工具。

当前挑战

PRING面临的挑战主要体现在两个方面：在领域问题层面，现有PPI预测模型难以同时保持生物网络的拓扑稀疏性和功能模块性，导致重建的网络过度稠密且功能一致性低；在构建过程中，需解决多源数据冗余（如40%序列相似性阈值设定）、跨物种进化距离导致的泛化性差异，以及防止蛋白质功能ID泄漏等技术难题。实验表明，当前最优模型PLM-interact在人类PPI网络重建中的图相似度仍低于0.5，且关键蛋白质识别任务中分布重叠度达0.44，凸显模型与真实生物应用的差距。

常用场景

经典使用场景

PRING数据集在蛋白质-蛋白质相互作用（PPI）预测领域具有广泛的应用场景，尤其在评估模型从成对预测扩展到网络级重建的能力方面表现突出。该数据集通过整合来自多个物种的高质量PPI网络，为研究者提供了一个可靠的平台，用于测试模型在重建生物网络拓扑结构和功能模块方面的性能。经典使用场景包括评估模型在跨物种PPI预测中的泛化能力，以及验证模型在复杂生物通路重建中的准确性。

解决学术问题

PRING数据集解决了当前PPI预测研究中的几个关键学术问题。首先，它填补了现有基准测试主要关注孤立成对评估而忽略网络级性能的空白。其次，通过设计拓扑导向和功能导向的任务，该数据集使研究者能够全面评估模型在重建PPI网络结构和功能特性方面的能力。此外，PRING还解决了数据冗余和泄漏问题，通过严格的过滤和分割策略确保了评估的公平性。这些创新为开发更可靠的PPI预测模型提供了重要指导。

实际应用

在实际应用方面，PRING数据集为多个生物医学研究领域提供了有力支持。在疾病机制研究中，该数据集可用于识别与疾病相关的关键蛋白质相互作用网络。在药物发现领域，它有助于预测潜在的药物靶点和药物-靶点相互作用。此外，PRING还支持蛋白质功能注释和生物模块检测，为系统生物学研究提供了重要工具。这些应用展示了该数据集在推动精准医学和生物技术发展方面的巨大潜力。

数据集最近研究

相关研究论文

1
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs新加坡国立大学, 上海人工智能实验室, 西湖大学, 上海创新研究所, 复旦大学, 香港中文大学, 西安交通大学 · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

United States Federal Election Commission (FEC) Databases

该数据集包含美国联邦选举委员会（FEC）的官方数据库，涵盖了选举相关的财务报告、候选人信息、政治行动委员会（PAC）数据、捐赠记录等。这些数据用于公开透明地记录和报告联邦选举的资金流动情况。

www.fec.gov 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

PU Dataset

德国帕德博恩大学（PU）轴承故障诊断数据集提供了丰富的轴承故障信号数据，包括内圈、外圈和滚动体故障等多种类型的轴承故障。与其他数据集相比，PU数据集的特色在于包含了大量的电机驱动系统故障数据，为轴承故障诊断研究提供了一个全面的实验平台。

github 收录