Signor_2class_clustered-70

Name: Signor_2class_clustered-70
Creator: Gleghorn Lab
Published: 2026-02-12 01:45:34
License: 暂无描述

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/Signor_2class_clustered-70

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含结构化生物序列数据，主要字段包括：IdA（字符串类型）、IdB（字符串类型）、SeqA（字符串类型）、SeqB（字符串类型）以及labels（整型）。数据集划分为训练集（9,010个样本，12.87MB）、测试集（502个样本，847KB）和验证集（514个样本，698KB），总大小约14.42MB。数据文件按默认配置存储在train-*、test-*和valid-*路径下。从字段命名推测可能涉及生物序列比对或配对任务，但README未明确说明具体应用场景。

提供机构：

Gleghorn Lab

创建时间：

2026-02-12

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用预测领域，Signor_2class_clustered-70数据集通过精心设计的流程构建而成。该数据集源自Signor数据库，专注于信号传导网络中的蛋白质相互作用对。构建过程中，首先从Signor提取蛋白质对及其序列信息，随后依据序列相似性进行聚类处理，设定70%的相似度阈值以控制数据冗余，确保样本多样性。最终，数据被划分为训练集、验证集和测试集，为机器学习模型提供了结构化的基准。

特点

Signor_2class_clustered-70数据集展现出鲜明的专业特性，其核心在于聚焦信号传导相关的蛋白质相互作用。数据集包含IdA、IdB、SeqA、SeqB和labels等特征字段，其中labels采用二进制分类标注，清晰区分相互作用的存在与否。通过70%序列相似度的聚类策略，有效减少了数据冗余，提升了样本的代表性。数据规模适中，共包含约一万余样本，分为训练、验证和测试三部分，为模型评估提供了可靠基础。

使用方法

在生物信息学研究中，该数据集主要用于训练和评估蛋白质相互作用预测模型。用户可直接加载HuggingFace平台提供的默认配置，获取训练集、验证集和测试集。每个样本包含蛋白质标识符、序列及标签信息，便于输入深度学习架构进行特征学习。建议先利用训练集进行模型优化，再通过验证集调整超参数，最终在测试集上评估性能，以推动信号传导网络的机制解析。

背景与挑战

背景概述

Signor_2class_clustered-70数据集聚焦于蛋白质相互作用预测这一生物信息学核心领域，其构建旨在通过序列信息推断蛋白质间的功能关联。该数据集由相关研究团队基于Signor数据库开发，整合了经过聚类处理的蛋白质对，以70%的序列相似性阈值进行筛选，从而减少冗余并增强模型的泛化能力。自创建以来，它为机器学习方法在生物分子网络推断中的应用提供了标准化基准，推动了计算生物学中蛋白质功能注释和信号通路解析的研究进展，成为该领域不可或缺的资源之一。

当前挑战

该数据集旨在解决蛋白质相互作用预测中的二元分类挑战，即准确区分蛋白质对之间是否存在功能相互作用，这一任务因蛋白质序列的复杂性和相互作用的动态特性而极具难度。构建过程中，挑战主要源于数据的高维稀疏性和类别不平衡问题，需通过聚类策略降低序列冗余，同时确保训练集与测试集在进化关系上的独立性，以避免模型过拟合。此外，如何从有限的序列特征中提取具有判别性的模式，并克服生物数据固有的噪声干扰，亦是实现稳健预测的关键障碍。

常用场景

经典使用场景

在蛋白质相互作用预测领域，Signor_2class_clustered-70数据集常被用于训练和评估机器学习模型，以识别蛋白质序列之间的功能关联。该数据集通过提供成对的蛋白质序列及其二元标签，支持监督学习任务，使研究人员能够构建精准的分类器，预测未知蛋白质对是否具有相互作用关系。这一场景在生物信息学中至关重要，为理解细胞信号传导网络提供了数据基础。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括基于深度学习的蛋白质嵌入方法和图神经网络模型。这些工作扩展了数据集的用途，例如开发SIGNOR数据库的增强版本，以及创建多任务学习框架以整合异构生物数据。相关成果发表在生物信息学顶级期刊上，进一步丰富了蛋白质相互作用研究的理论体系。

数据集最近研究