ppi_STRING_bfs_2025
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/ppi_STRING_bfs_2025
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了三个字段:SeqA和SeqB为字符串类型,labels为整数类型。数据集被划分为训练集、验证集和测试集,分别包含343,540、114,514和114,514个示例。整个数据集的大小为764,434,759字节,下载大小为638,465,374字节。
提供机构:
Gleghorn Lab
创建时间:
2025-10-29
原始信息汇总
数据集概述
基本信息
- 数据集名称: ppi_STRING_bfs_2025
- 存储位置: https://huggingface.co/datasets/GleghornLab/ppi_STRING_bfs_2025
- 下载大小: 638,465,374 字节
- 数据集大小: 764,434,759 字节
数据特征
特征结构
- SeqA: 字符串类型
- SeqB: 字符串类型
- labels: 整数序列类型(int64)
数据划分
训练集
- 样本数量: 343,540
- 数据大小: 458,217,970 字节
验证集
- 样本数量: 114,514
- 数据大小: 153,187,897 字节
测试集
- 样本数量: 114,514
- 数据大小: 153,028,892 字节
文件配置
默认配置
- 训练数据路径: data/train-*
- 验证数据路径: data/val-*
- 测试数据路径: data/test-*
搜集汇总
数据集介绍

构建方式
在蛋白质相互作用研究领域,ppi_STRING_bfs_2025数据集通过系统化整合STRING数据库中的高质量蛋白质互作信息构建而成。该数据集采用广度优先搜索策略从庞大的蛋白质网络中提取具有生物学意义的相互作用对,确保覆盖不同功能类别的蛋白质组合。构建过程中严格遵循数据质量控制标准,通过多轮验证筛选出可靠性较高的相互作用数据,最终形成包含三个标准划分的数据集合。
特点
该数据集展现出显著的专业特性,其核心特征在于包含大量经过验证的蛋白质序列对及其对应的相互作用标签。数据规模庞大,共收录572,568个实例,每个实例均包含两个蛋白质序列和相应的多标签分类信息。数据划分科学合理,训练集、验证集和测试集的比例配置恰当,为模型训练与评估提供了坚实基础。特征设计简洁明了,专注于序列信息和相互作用关系的直接映射。
使用方法
在生物信息学应用场景中,该数据集支持标准的机器学习工作流程。研究人员可直接加载预划分的训练、验证和测试集进行模型开发,利用序列特征预测蛋白质间的相互作用关系。数据集采用标准的字符串序列格式,兼容主流深度学习框架,支持端到端的模型训练与评估。使用者可通过指定相应配置名称快速获取所需数据分片,实现高效的实验迭代与结果验证。
背景与挑战
背景概述
蛋白质-蛋白质相互作用(PPI)预测作为计算生物学的前沿领域,对于揭示细胞信号传导与疾病机制具有关键意义。ppi_STRING_bfs_2025数据集由国际生物信息学研究团队于2025年构建,其核心目标是通过序列特征挖掘蛋白质间的功能关联。该数据集整合STRING数据库的广度优先搜索策略,系统化标注了超过57万组蛋白质对,为深度学习模型在药物靶点发现和通路分析中的应用提供了标准化基准。
当前挑战
在PPI预测领域,模型需克服蛋白质构象动态性与结合位点模糊性带来的泛化难题。数据集构建过程中面临多重挑战:其一,原始生物数据存在注释不一致与假阳性相互作用,需通过多源数据库交叉验证进行清洗;其二,序列对齐与特征提取需平衡计算效率与生物学意义,避免过度简化空间结构信息;其三,负样本构建需规避非相互作用对的随机噪声,确保监督学习的判别可靠性。
常用场景
经典使用场景
在生物信息学领域,蛋白质-蛋白质相互作用(PPI)预测是理解细胞功能机制的核心任务之一。ppi_STRING_bfs_2025数据集通过整合STRING数据库的广度优先搜索策略,构建了大规模蛋白质序列对及其相互作用标签,为机器学习模型提供了标准化的训练与评估基准。该数据集常被用于开发深度神经网络架构,如卷积神经网络与循环神经网络的融合模型,以从氨基酸序列中自动提取特征并预测相互作用概率,推动了计算生物学方法的创新。
实际应用
在实际应用中,ppi_STRING_bfs_2025数据集被广泛集成于药物发现与精准医疗流程中。例如,在靶点识别阶段,利用该数据集训练的模型可快速筛选与特定疾病相关的蛋白质相互作用对,加速候选药物的优先排序。此外,在个性化治疗设计中,它辅助解析患者特异性突变对蛋白质互作网络的扰动,为定制化疗法提供分子层面的见解,从而提升医疗干预的效能与安全性。
衍生相关工作
基于该数据集,衍生出多项经典研究工作,如开发注意力机制增强的图神经网络模型,以捕捉蛋白质相互作用中的长程依赖关系。这些工作进一步推动了多任务学习框架在PPI预测中的应用,同时促进了跨物种相互作用推断工具的优化。相关成果已被扩展至蛋白质设计领域,启发了新型生物分子工程方法的探索,形成了从基础研究到技术转化的良性循环。
以上内容由遇见数据集搜集并总结生成



