SHS27k, SHS148k, STRING

github2025-03-28 更新2025-04-07 收录

下载链接：

https://github.com/lijfrank-open/JmcPPI

下载链接

链接失效反馈

官方服务：

资源简介：

SHS27k、SHS148k和STRING是用于蛋白质相互作用研究的数据集，包含蛋白质序列、PPI网络和由AlphaFold2预测的蛋白质结构PDB文件。

SHS27k, SHS148k, and STRING are datasets dedicated to protein-protein interaction (PPI) research. They encompass protein sequences, PPI networks, and PDB files of protein structures predicted by AlphaFold2.

创建时间：

2025-03-08

原始信息汇总

JmcPPI数据集概述

基本信息

论文标题: Joint Masked Reconstruction and Contrastive Learning for Mining Interactions Between Proteins
论文链接: https://arxiv.org/abs/2503.04650
作者: Jiang Li, Xiaoping Wang
机构: 华中科技大学 (Huazhong University of Science and Technology, HUST)

数据集内容

包含数据集:
- SHS27k
- SHS148k
- STRING
数据类型:
- 蛋白质序列 (protein.STRING.sequences.dictionary.tsv)
- 蛋白质相互作用网络 (protein.actions.STRING.txt)
- AlphaFold2预测的蛋白质结构PDB文件 (STRING_AF2DB)

数据获取

下载地址: Google Drive

预处理

预处理脚本: ./raw_data/data_process.py
使用方式: bash python ./raw_data/data_process.py --dataset data_name

其中data_name为SHS27k、SHS148k或STRING之一

运行要求

环境配置: bash pip install -r requirements.txt

运行示例

SHS27k数据集: bash CUDA_VISIBLE_DEVICES=2 python -u train.py --dataset SHS27k --split_mode partition_scheme --ckpt_path ../rec_trained_model/rec_model_SHS27k_128.ckpt
SHS148k数据集: bash CUDA_VISIBLE_DEVICES=2 python -u train.py --dataset SHS148k --split_mode partition_scheme --ckpt_path ../rec_trained_model/rec_model_SHS148k_128.ckpt
STRING数据集: bash CUDA_VISIBLE_DEVICES=2 python -u train.py --dataset STRING --split_mode partition_scheme --ckpt_path ../rec_trained_model/rec_model_STRING_128.ckpt

(注：partition_scheme为Random、BFS或DFS之一)

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用研究领域，SHS27k、SHS148k和STRING数据集的构建采用了多源数据融合策略。这些数据集整合了STRING数据库的蛋白质序列信息、相互作用网络数据以及通过AlphaFold2预测的蛋白质三维结构数据。研究团队开发了专门的数据处理流程，通过Python脚本将原始TSV格式的序列数据、PPI网络文件和PDB结构文件转化为特征矩阵和邻接矩阵，为后续的机器学习建模提供结构化输入。

特点

该系列数据集最显著的特点在于其多模态特性，同时包含蛋白质的序列、相互作用网络和三维结构信息。SHS27k和SHS148k作为精选子集，提供了不同规模的蛋白质相互作用样本，而STRING数据集则覆盖了更全面的已知蛋白质相互作用。特别值得注意的是，所有结构数据均采用AlphaFold2预测的高精度模型，确保了数据的可靠性和前沿性。这种多维度的数据整合为蛋白质相互作用预测任务提供了丰富的特征空间。

使用方法

使用这些数据集需要配置指定的Python环境，并通过命令行调用训练脚本。研究人员可以根据需要选择不同的数据集（SHS27k、SHS148k或STRING）和分割方案（随机、BFS或DFS）。数据集预处理阶段需运行专门的数据处理脚本，将原始数据转换为模型可接受的格式。训练时需指定预训练模型路径，并可通过CUDA设备参数实现GPU加速。这种模块化的设计使得数据集能够灵活适配不同的蛋白质相互作用研究需求。

背景与挑战

背景概述

SHS27k、SHS148k和STRING数据集由华中科技大学的Jiang Li和Xiaoping Wang团队于2025年构建，旨在通过联合掩码重建与对比学习技术挖掘蛋白质间的相互作用关系。这些数据集在生物信息学领域具有重要意义，为蛋白质-蛋白质相互作用（PPI）网络的研究提供了高质量的数据支持。数据集的核心研究问题聚焦于如何利用深度学习模型从蛋白质序列和结构中提取有效的特征，进而预测未知的相互作用关系。STRING数据集尤其受到广泛关注，因其整合了AlphaFold2预测的蛋白质结构数据，为PPI研究提供了更全面的视角。

当前挑战

在解决蛋白质相互作用预测问题时，这些数据集面临的主要挑战包括如何高效处理高维稀疏的蛋白质序列和结构数据，以及如何克服数据噪声和不完整性对模型性能的影响。在构建过程中，研究人员需应对多源异构数据的整合难题，例如将STRING数据库中的蛋白质相互作用数据与AlphaFold2预测的结构数据进行对齐和融合。此外，数据集的规模庞大（如SHS148k包含14.8万个样本），对计算资源和存储能力提出了较高要求，同时也增加了数据预处理和特征提取的复杂度。

常用场景

经典使用场景

在蛋白质相互作用（PPI）研究领域，SHS27k、SHS148k和STRING数据集被广泛应用于蛋白质相互作用预测模型的训练与评估。这些数据集通过整合蛋白质序列、结构和相互作用网络信息，为研究人员提供了丰富的多模态数据。在经典使用场景中，这些数据集常被用于开发基于深度学习的蛋白质相互作用预测算法，例如联合掩码重建和对比学习方法。研究人员利用这些数据集训练模型，以捕捉蛋白质之间的复杂相互作用模式。

衍生相关工作

基于SHS27k、SHS148k和STRING数据集，衍生了一系列经典研究工作。例如，JmcPPI模型通过联合掩码重建和对比学习，显著提升了蛋白质相互作用预测的性能。此外，这些数据集还促进了图神经网络、自监督学习等先进方法在生物信息学中的应用，为蛋白质相互作用研究开辟了新的方向。

数据集最近研究