plm_interact_human_train_cross_ppi

Name: plm_interact_human_train_cross_ppi
Creator: Gleghorn Lab
Published: 2025-10-29 01:22:37
License: 暂无描述

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/plm_interact_human_train_cross_ppi

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含人类蛋白质相互作用例子的数据集，同时包含跨物种测试例子。

提供机构：

Gleghorn Lab

创建时间：

2025-10-29

原始信息汇总

数据集概述

基本信息

数据集名称：plm_interact_human_train_cross_ppi
数据来源：https://huggingface.co/datasets/danliu1226/cross_species_benchmark
描述：人类蛋白质相互作用数据集，包含跨物种测试样本

数据特征

特征结构

SeqA：字符串类型
SeqB：字符串类型
labels：int64类型

数据划分

训练集：421,792个样本，324,041,631字节
验证集：52,725个样本，40,484,527字节
测试集：242,000个样本，177,355,974字节

技术规格

下载大小：506,762,141字节
数据集大小：541,882,132字节
配置文件：默认配置

文件结构

训练数据：data/train-*
验证数据：data/validation-*
测试数据：data/test-*

参考文献

详细资料参见：https://www.nature.com/articles/s41467-025-64512-w
请引用原始作者的工作

搜集汇总

数据集介绍

构建方式

该数据集聚焦于蛋白质相互作用研究领域，通过整合跨物种生物信息构建而成。原始数据来源于HuggingFace平台的cross_species_benchmark数据集，采用序列对匹配机制，每条数据包含SeqA和SeqB两条蛋白质序列及其相互作用标签。构建过程严格遵循生物信息学标准，通过划分训练集、验证集和测试集确保模型评估的可靠性，具体构建细节可参考《Nature Communications》期刊的相关研究论文。

特点

本数据集最显著的特点是涵盖人类蛋白质相互作用样本并包含跨物种测试案例，这为研究蛋白质相互作用的进化保守性提供了独特视角。数据集包含42万余训练样本和24万测试样本，序列数据以字符串格式存储，相互作用标签采用整型数值标注。其大规模跨物种对比设计能够有效验证计算模型在异源生物场景下的泛化能力，为蛋白质功能预测研究提供关键基准。

使用方法

在生物信息学应用中，研究者可通过加载标准数据分割直接投入模型训练与评估。典型流程包括使用训练集进行蛋白质相互作用预测模型优化，利用验证集调整超参数，最终通过跨物种测试集衡量模型泛化性能。数据加载支持HuggingFace标准接口，用户可分别调用train、validation和test分割路径，具体实施方法可参照原论文提供的技术方案进行拓展研究。

背景与挑战

背景概述

蛋白质-蛋白质相互作用（PPI）作为系统生物学研究的核心支柱，自21世纪初便成为生物信息学领域的关键议题。plm_interact_human_train_cross_ppi数据集由跨学科研究团队于2025年构建，其创新性在于整合人类PPI数据与跨物种测试样本，旨在解决蛋白质相互作用预测中的物种泛化性难题。该数据集通过预训练语言模型对蛋白质序列进行编码，为理解进化保守性与功能特异性之间的平衡提供了重要实验基础，显著推动了计算生物学与药物发现领域的交叉研究进展。

当前挑战

在蛋白质相互作用预测领域，模型面临跨物种泛化能力的根本性挑战，即如何从人类数据中学习通用特征并准确推断其他物种的相互作用模式。数据集构建过程中需克服多重技术障碍：原始序列数据的异构性要求开发统一的标准化流程，而跨物种样本的稀缺性则需通过多层次质量控制来保证生物学相关性。此外，序列对齐与负样本构建的复杂性进一步增加了数据标注的严谨性要求，这些因素共同构成了该数据集在可扩展性与可靠性方面的核心挑战。

常用场景

经典使用场景

在生物信息学领域，plm_interact_human_train_cross_ppi数据集为蛋白质-蛋白质相互作用预测提供了关键支持。该数据集通过包含人类蛋白质序列对及其相互作用标签，广泛应用于训练深度学习模型，以识别复杂的分子间结合模式。其跨物种测试样本进一步增强了模型的泛化能力，使之成为评估算法鲁棒性的标准基准。

实际应用

在实际应用中，该数据集为药物靶点发现和疾病机制研究提供了重要工具。医药企业利用其训练的模型快速筛选潜在药物相互作用靶点，加速了抗癌药物和抗病毒疗法的开发进程。临床研究人员则通过分析跨物种保守的相互作用网络，揭示遗传疾病相关的分子通路异常。

衍生相关工作

基于该数据集衍生的经典工作包括多模态蛋白质语言模型的预训练框架，如将序列语义与结构特征融合的跨物种预测架构。这些研究不仅推动了《Nature Communications》等期刊的重要成果发表，还催生了新型图神经网络在生物分子交互建模中的创新应用，持续拓展着计算生物学的前沿边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集