Signor_3class_clustered-70

Name: Signor_3class_clustered-70
Creator: Gleghorn Lab
Published: 2026-02-12 01:49:47
License: 暂无描述

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/Signor_3class_clustered-70

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含结构化生物序列数据，由12692个训练样本、1012个测试样本和1000个验证样本组成。每个样本包含五个字段：IdA（字符串类型）、IdB（字符串类型）、SeqA（字符串类型）、SeqB（字符串类型）以及labels（64位整型）。数据集总大小为21.48MB，下载压缩包为16.87MB。数据已预分割为train/test/valid三个子集，分别存储在data/train-*、data/test-*和data/valid-*路径下。从字段命名推测可能涉及生物序列比对或配对任务，但README未提供具体应用说明。

提供机构：

Gleghorn Lab

创建时间：

2026-02-12

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用研究领域，Signor_3class_clustered-70数据集的构建体现了对生物信息学数据的系统化整合。该数据集基于Signor数据库，通过序列相似性聚类方法，以70%的序列一致性阈值对蛋白质对进行聚类，旨在减少数据冗余并增强模型的泛化能力。构建过程中，蛋白质相互作用被标注为三类标签，分别对应激活、抑制和未知的调控关系，确保了数据在功能注释上的明确性。数据划分遵循标准机器学习流程，包含训练集、验证集和测试集，为模型开发与评估提供了结构化基础。

特点

Signor_3class_clustered-70数据集的核心特点在于其专注于蛋白质相互作用的调控类型分类，涵盖激活、抑制和未知三类标签，为信号通路分析提供了细粒度的监督信息。数据集通过聚类处理，有效降低了序列冗余，提升了数据多样性，有助于模型学习更具泛化性的特征。其结构清晰，包含蛋白质对的标识符、序列信息及分类标签，支持直接应用于机器学习任务。数据规模适中，划分合理，便于研究人员进行模型训练、验证与测试，推动了计算生物学中蛋白质功能预测的进展。

使用方法

使用Signor_3class_clustered-70数据集时，研究人员可将其应用于蛋白质相互作用分类模型的开发与评估。数据集已预分为训练集、验证集和测试集，用户可直接加载这些分割进行模型训练，利用序列特征和标签学习调控关系的模式。在机器学习流程中，蛋白质序列可作为输入特征，通过嵌入或编码技术转化为数值表示，结合三类标签进行多分类任务。该数据集适用于监督学习方法，如深度学习模型，以预测未知蛋白质对的调控类型，为生物医学研究提供计算支持。

背景与挑战

背景概述

Signor_3class_clustered-70数据集聚焦于蛋白质相互作用预测领域，该领域在系统生物学和药物发现中占据核心地位。该数据集由国际研究团队构建，旨在通过序列信息推断蛋白质间的功能关系，其核心研究问题在于从氨基酸序列中挖掘潜在的相互作用模式，从而辅助理解细胞信号传导网络。自创建以来，该数据集为机器学习模型在生物信息学中的应用提供了重要基准，推动了蛋白质功能注释和网络预测方法的发展，对精准医疗和靶向治疗研究产生了深远影响。

当前挑战

该数据集旨在解决蛋白质相互作用预测中的关键挑战，即如何从高维、稀疏的序列数据中准确识别功能关联，同时克服生物学中普遍存在的假阳性和假阴性问题。在构建过程中，研究人员面临序列冗余性和类别不平衡的难题，需通过聚类策略降低数据偏差，并确保训练集与测试集之间的独立性，以提升模型的泛化能力。此外，标签的准确标注依赖于实验验证，整合多源生物数据并保持一致性亦是构建过程中的主要障碍。

常用场景

经典使用场景

在生物信息学领域，蛋白质相互作用预测是理解细胞功能网络的核心任务。Signor_3class_clustered-70数据集通过提供蛋白质序列对及其相互作用标签，为机器学习模型训练提供了标准化的基准。该数据集最经典的使用场景是训练和评估深度学习模型，如卷积神经网络或图神经网络，以自动识别蛋白质之间的激活、抑制或无关关系，从而推动计算生物学中相互作用网络的自动化构建。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于注意力机制的蛋白质嵌入模型和跨物种相互作用预测框架。这些工作利用数据集的聚类结构优化特征表示，推动了图神经网络在生物网络分析中的应用。相关成果已发表在生物信息学顶级会议如ISMB和RECOMB上，为后续大规模蛋白质相互作用数据库的构建提供了方法论基础。

数据集最近研究