OmniPath_2class_clustered-30

Name: OmniPath_2class_clustered-30
Creator: Gleghorn Lab
Published: 2026-02-20 11:54:58
License: 暂无描述

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/OmniPath_2class_clustered-30

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征字段，包括标识符（IdA、IdB）、标签（labels）、共识标志（consensus_stim、consensus_inhib、consesus_direction）、来源（sources）、类型（type）以及去除引用的参考文献（references_stripped）。数据集分为训练集、测试集和验证集，其中训练集包含74,542个样本，测试集包含25,476个样本，验证集包含25,000个样本。总数据集大小为11,944,548字节，下载大小为1,420,734字节。数据文件按分割存储，路径分别为data/train-*、data/test-*和data/valid-*。

提供机构：

Gleghorn Lab

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在生物信息学领域，蛋白质相互作用预测是理解细胞功能网络的关键环节。OmniPath_2class_clustered-30数据集基于OmniPath数据库构建，通过筛选和聚类处理，将蛋白质对划分为相互作用与非相互作用两类。具体而言，该数据集从原始OmniPath资源中提取蛋白质对及其序列信息，并应用序列相似性聚类算法，以30%的序列一致性阈值进行去冗余处理，从而生成高质量且代表性强的样本，确保了数据在机器学习任务中的有效性和泛化能力。

使用方法

对于研究人员而言，该数据集可直接用于训练和评估蛋白质相互作用的机器学习或深度学习模型。用户可通过加载数据集的训练、验证和测试分割，利用蛋白质序列特征（如通过嵌入或特征提取方法）构建分类器，预测蛋白质对是否发生相互作用。典型应用包括使用卷积神经网络或Transformer架构处理序列数据，并通过验证集调整超参数，最终在测试集上评估模型性能。数据集的标准化格式兼容常见框架如PyTorch或TensorFlow，便于集成到现有生物信息学分析流程中。

背景与挑战

背景概述

在生物信息学领域，蛋白质相互作用预测是理解细胞功能机制的关键课题。OmniPath_2class_clustered-30数据集由专业研究团队构建，旨在通过整合多源生物数据，解决蛋白质间相互作用关系的二分类问题。该数据集以序列对形式呈现，包含蛋白质标识符、氨基酸序列及相互作用标签，其设计反映了对高通量实验数据与计算模型融合的深入探索，为系统生物学和药物发现提供了重要数据基础。

当前挑战

该数据集面临的挑战主要集中于两个方面：在领域问题层面，蛋白质相互作用预测需克服生物序列的高维稀疏性、相互作用模式的动态复杂性以及假阳性结果的干扰；在构建过程中，数据整合涉及多源异构数据库的标准化、序列聚类去冗余的阈值选择，以及正负样本平衡性的保持，这些技术难点直接影响模型的泛化能力与可靠性。

常用场景

经典使用场景

在生物信息学领域，蛋白质-蛋白质相互作用预测是理解细胞功能网络的核心任务之一。OmniPath_2class_clustered-30数据集通过提供成对的蛋白质序列及其二元标签，为机器学习模型训练提供了标准化资源。该数据集常用于开发深度学习方法，如序列编码与分类器结合，以自动识别蛋白质间是否存在相互作用，从而辅助构建大规模的相互作用图谱。

解决学术问题

该数据集有效解决了蛋白质相互作用预测中数据稀疏与标注不一致的学术挑战。通过整合多源生物数据库并应用聚类降噪处理，它提供了高质量、低冗余的样本，支持模型泛化能力评估。其意义在于推动了计算生物学方法的发展，使研究人员能够更准确地探索蛋白质网络的功能机制，为疾病靶点发现和药物设计奠定数据基础。

实际应用

在实际应用中，该数据集被广泛用于生物医学研究和药物开发流程。例如，制药公司利用基于此数据集训练的模型，快速筛选潜在药物靶点蛋白的相互作用伙伴，加速候选化合物识别。同时，在精准医疗中，它帮助解析疾病相关的蛋白质通路异常，为个性化治疗方案提供分子层面的见解。

数据集最近研究