ppi_STRING_random_2025

Name: ppi_STRING_random_2025
Creator: Gleghorn Lab
Published: 2025-10-29 02:01:59
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/ppi_STRING_random_2025

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个字段：SeqA和SeqB为字符串类型的数据，labels为整型标签。数据集分为训练集、验证集和测试集，分别包含343,540、114,514和114,514个示例。数据集总大小为764,434,759字节。

提供机构：

Gleghorn Lab

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

数据集名称: ppi_STRING_random_2025
存储位置: https://huggingface.co/datasets/GleghornLab/ppi_STRING_random_2025

数据特征

特征结构:
- SeqA: 字符串类型
- SeqB: 字符串类型
- labels: 整数序列类型（int64）

数据划分

训练集:
- 样本数量: 343,540
- 数据大小: 458,217,970 字节
验证集:
- 样本数量: 114,514
- 数据大小: 153,187,897 字节
测试集:
- 样本数量: 114,514
- 数据大小: 153,028,892 字节

存储信息

下载大小: 638,465,374 字节
数据集总大小: 764,434,759 字节

配置文件

默认配置:
- 训练集文件路径: data/train-*
- 验证集文件路径: data/val-*
- 测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用研究领域，ppi_STRING_random_2025数据集通过系统化采集STRING数据库中的蛋白质序列对构建而成。该数据集采用随机采样策略，从海量蛋白质相互作用网络中精选出572,568组序列对，并按照7:2:1的比例划分为训练集、验证集和测试集。每个样本包含两条蛋白质序列及其对应的相互作用标签，确保了数据的代表性和统计可靠性。

使用方法

研究人员可直接加载数据集的标准化分割版本进行模型开发。训练集包含343,540个样本，适用于深度神经网络的大规模训练；验证集和测试集各含114,514个样本，分别用于超参数调优和最终性能评估。数据以TFRecord格式存储，支持流式读取，有效降低了内存占用。用户可通过指定split参数快速获取所需数据子集，加速蛋白质相互作用预测模型的迭代过程。

背景与挑战

背景概述

蛋白质-蛋白质相互作用（PPI）预测是计算生物学与生物信息学领域的核心研究方向，旨在揭示生物体内蛋白质间的功能关联网络。ppi_STRING_random_2025数据集基于权威STRING数据库构建，整合了多源生物数据，通过随机采样策略生成序列对及其相互作用标签，为机器学习模型提供大规模训练与评估基础。该数据集由跨学科研究团队于2025年发布，聚焦于解决高通量生物实验中相互作用验证成本高、覆盖率有限的问题，显著推动了药物靶点发现和疾病机制解析等应用的发展。

当前挑战

PPI预测领域长期面临相互作用模式高度异构、动态环境依赖性等科学难题，要求模型能区分特异性结合与随机关联。在数据集构建过程中，原始生物数据的噪声过滤、序列对齐偏差校正、以及负样本的生物学合理性定义构成了主要技术挑战。此外，跨物种PPI的保守性差异与实验验证数据稀疏性进一步增加了标注一致性与泛化能力保障的复杂度。

常用场景

经典使用场景

在生物信息学领域，蛋白质-蛋白质相互作用预测是理解细胞功能机制的核心任务。ppi_STRING_random_2025数据集通过提供大量蛋白质序列对及其相互作用标签，为机器学习模型训练提供了标准化基准。研究者常利用该数据集构建深度神经网络，通过分析序列特征自动识别潜在相互作用，推动蛋白质功能注释的自动化进程。

解决学术问题

该数据集有效解决了传统实验方法验证蛋白质相互作用的高成本与低效率问题。通过大规模负采样技术构建的平衡数据集，显著提升了机器学习模型在相互作用预测中的泛化能力。其标准化标注体系为评估不同算法性能提供了统一框架，加速了计算生物学领域方法学的迭代发展。

实际应用

在药物研发实践中，该数据集为靶点发现和药物重定位提供了关键支撑。制药企业通过分析蛋白质相互作用网络，可快速识别疾病相关通路中的关键节点。基于该数据集训练的预测模型已成功应用于抗病毒药物设计，显著缩短了候选化合物筛选周期，为精准医疗提供了数据驱动的新范式。

数据集最近研究