OmniPath_2class_clustered-50

Name: OmniPath_2class_clustered-50
Creator: Gleghorn Lab
Published: 2026-02-20 11:58:23
License: 暂无描述

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/OmniPath_2class_clustered-50

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含结构化特征，主要字段包括：IdA（字符串类型）、IdB（字符串类型）、labels（整型）、consensus_stim（布尔型）、consensus_inhib（布尔型）、consesus_direction（布尔型）、sources（字符串类型）、type（字符串类型）和references_stripped（字符串类型）。数据集分为训练集（75,998个样本）、测试集（25,046个样本）和验证集（25,000个样本），总大小约为11.95 MB。下载文件大小为1.42 MB。数据文件按默认配置分布在train、test和valid三个分片中。

This dataset contains structured features, with its core fields including: IdA (string type), IdB (string type), labels (integer type), consensus_stim (boolean type), consensus_inhib (boolean type), consensus_direction (boolean type), sources (string type), type (string type), and references_stripped (string type). The dataset is split into training set (75,998 samples), test set (25,046 samples) and validation set (25,000 samples), with a total size of approximately 11.95 MB. The size of the downloaded file is 1.42 MB. The data files are distributed across three splits: train, test and valid, following the default configuration.

提供机构：

Gleghorn Lab

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用预测领域，OmniPath_2class_clustered-50数据集的构建体现了对数据质量和模型泛化能力的深度考量。该数据集源于OmniPath数据库，通过严格的序列相似性聚类处理，确保训练集与测试集之间的序列同一性低于50%，从而有效避免了模型因记忆相似序列而产生的过拟合问题。构建过程中，蛋白质对根据其相互作用标签被划分为正负两类，并依据序列特征进行聚类分割，形成了包含训练、验证和测试三个独立子集的结构化数据，为机器学习模型提供了可靠的评估基准。

特点

该数据集的核心特点在于其经过精心设计的低序列相似性分割策略，这显著提升了模型在新蛋白质对上相互作用预测的泛化性能。数据集包含超过十万个训练样本和约一万八千个测试与验证样本，每个样本均提供了蛋白质对的标识符、氨基酸序列以及二元分类标签。特征字段清晰明确，涵盖了IdA、IdB、SeqA、SeqB和labels，支持直接用于序列输入的分类任务。数据集的规模适中且分割合理，兼顾了模型训练的充分性与评估的严谨性，为蛋白质相互作用研究提供了高质量的标准数据资源。

使用方法

使用OmniPath_2class_clustered-50数据集时，研究者可直接加载其预分割的训练、验证和测试集，用于开发和评估蛋白质相互作用的二元分类模型。典型流程包括利用SeqA和SeqB字段作为模型输入，通过嵌入或特征提取技术处理氨基酸序列，并以labels字段作为监督信号进行模型训练。在验证集上调整超参数后，最终在独立的测试集上评估模型性能，确保结果的无偏估计。该数据集兼容常见的机器学习框架，其结构化格式便于集成到深度学习管道中，加速蛋白质功能预测领域的方法创新。

背景与挑战

背景概述

在生物信息学领域，蛋白质-蛋白质相互作用（PPI）的预测是理解细胞功能与疾病机制的核心课题。OmniPath_2class_clustered-50数据集由专业研究团队构建，旨在通过整合多源生物数据，提供高质量的蛋白质对相互作用分类基准。该数据集聚焦于二元分类任务，将蛋白质对标注为相互作用或非相互作用，其设计反映了对大规模、高可靠性PPI数据的需求，以支持机器学习模型在药物发现与系统生物学中的应用，推动了计算生物学方法的创新与验证。

当前挑战

该数据集致力于解决蛋白质-蛋白质相互作用预测中的分类挑战，即如何从序列信息中准确推断相互作用关系，这涉及处理生物数据的噪声与高维度特性。构建过程中，研究人员面临数据整合的复杂性，需从异构生物数据库中提取并清洗蛋白质序列与相互作用信息，同时通过聚类策略降低冗余性，确保数据集的代表性与平衡性，这些步骤对计算资源与领域专业知识提出了较高要求。

常用场景

经典使用场景

在生物信息学与计算生物学领域，蛋白质相互作用预测是揭示生命活动分子机制的核心任务。OmniPath_2class_clustered-50数据集通过提供大量经过聚类处理的蛋白质对序列及其二元标签，为机器学习模型，特别是深度学习架构，构建了标准化的训练与评估基准。该数据集常用于训练图神经网络或序列嵌入模型，以学习蛋白质间的功能关联模式，从而实现对未知相互作用的精准推断。

解决学术问题

该数据集有效应对了蛋白质相互作用预测中数据噪声高、正负样本不平衡以及进化关系冗余带来的挑战。通过严格的序列聚类处理，它显著降低了数据偏差，为模型提供了更纯净、更具代表性的学习样本。这助力研究人员开发出更稳健的预测算法，推动了从序列信息直接解码蛋白质互作网络这一基础科学问题的进展，对理解细胞信号传导、代谢通路等复杂生物过程具有深远意义。

衍生相关工作

该数据集的发布催生了一系列专注于蛋白质相互作用预测的经典研究工作。许多研究以此为基础，探索了不同的神经网络架构，如注意力机制与图卷积网络的结合，以提升模型对远程同源相互作用的识别能力。此外，围绕该数据集进行的基准测试与模型对比，也成为了评估新算法性能的重要范式，持续推动着计算生物学方法学的创新与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集