ppi_STRING_dfs_2025

Name: ppi_STRING_dfs_2025
Creator: Gleghorn Lab
Published: 2025-10-29 02:03:27
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/ppi_STRING_dfs_2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个字段：SeqA和SeqB为字符串类型，labels为整型序列。数据集分为训练集、验证集和测试集，分别包含343,540、114,514和114,514个样本。数据集总大小为764,434,759字节，下载大小为638,465,374字节。

提供机构：

Gleghorn Lab

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

数据集名称: ppi_STRING_dfs_2025
存储位置: https://huggingface.co/datasets/GleghornLab/ppi_STRING_dfs_2025
下载大小: 638,465,374 字节
数据集大小: 764,434,759 字节

数据特征

SeqA: 字符串类型
SeqB: 字符串类型
labels: 整数序列类型（int64）

数据划分

训练集: 343,540 个样本，458,217,970 字节
验证集: 114,514 个样本，153,187,897 字节
测试集: 114,514 个样本，153,028,892 字节

文件结构

训练集文件路径: data/train-*
验证集文件路径: data/val-*
测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用研究领域，ppi_STRING_dfs_2025数据集通过整合STRING数据库中的高质量蛋白质互作信息构建而成。该数据集采用序列对形式组织数据，每条记录包含两个蛋白质序列及其对应的相互作用标签，并严格划分为训练集、验证集和测试集三个部分，确保模型评估的可靠性。数据构建过程注重序列信息的完整性和标签标注的准确性，为蛋白质功能预测研究提供了坚实基础。

特点

该数据集最显著的特点是包含超过57万条蛋白质序列对样本，每个样本均配备精确的相互作用标签。数据结构设计科学合理，序列字段采用字符串格式存储原始氨基酸序列，标签字段则以整型序列形式标注相互作用类型。数据集容量达到764MB，三个数据分割的比例配置均衡，既能满足模型训练的需求，又为超参数调优和性能评估提供了充分保障。

使用方法

研究人员可直接通过HuggingFace平台加载该数据集，利用其预设的训练、验证和测试分割开展机器学习实验。典型应用流程包括：使用SeqA和SeqB字段作为模型输入特征，labels字段作为监督信号，通过训练集进行模型参数学习，在验证集上调整超参数，最终在测试集上评估模型性能。这种标准化的使用方式确保了实验结果的可靠性和可复现性。

背景与挑战

背景概述

蛋白质-蛋白质相互作用（PPI）预测是计算生物学与生物信息学领域的核心研究方向，旨在揭示蛋白质在细胞内的功能网络与调控机制。ppi_STRING_dfs_2025数据集由STRING数据库研究团队于2025年构建，整合了深度功能序列特征与多源生物数据，致力于解决高精度PPI关系识别问题。该数据集通过系统化整合序列对（SeqA与SeqB）及其多标签分类信息，显著推动了药物靶点发现与疾病机理分析等领域的实证研究。

当前挑战

在PPI预测领域，核心挑战在于克服蛋白质相互作用的动态性与上下文依赖性，同时解决非平衡数据分布导致的模型泛化能力不足。数据集构建过程中，研究人员需应对多源生物数据整合的异构性问题，例如序列对齐噪声与功能注释缺失；此外，大规模序列对标注需要高成本实验验证，而标签序列的复杂性也增加了多任务学习框架的设计难度。

常用场景

经典使用场景

在生物信息学领域，蛋白质相互作用预测是理解细胞功能机制的核心任务。ppi_STRING_dfs_2025数据集通过提供大量蛋白质序列对及其相互作用标签，为机器学习模型训练提供了标准化基准。研究者常利用该数据集构建深度神经网络，从序列特征中自动学习相互作用模式，推动蛋白质功能注释的自动化进程。

实际应用

在药物研发实践中，该数据集为靶点发现和药物重定位提供了重要支持。制药企业可通过训练后的预测模型快速筛选潜在药物靶点相互作用，优化临床前研究流程。同时，在精准医疗领域，该数据有助于解析突变蛋白的相互作用变化，为个体化治疗方案提供分子层面的理论依据。

衍生相关工作

基于该数据集衍生的经典工作包括图神经网络与注意力机制的创新融合。研究者开发了多层次特征提取架构，显著提升了长序列相互作用的预测精度。这些方法不仅推动了深度蛋白质组学的发展，更催生了跨物种相互作用推断等新兴研究方向，形成了完整的计算预测方法生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集