Signor_2class_clustered-60

Name: Signor_2class_clustered-60
Creator: Gleghorn Lab
Published: 2026-02-12 01:44:56
License: 暂无描述

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/Signor_2class_clustered-60

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个预定义分割（训练集、测试集、验证集），总规模为15.58MB，含10,738个样本。每个样本包含五个字段：IdA（字符串类型）、IdB（字符串类型）、SeqA（字符串类型）、SeqB（字符串类型）以及labels（整型）。具体数据分布为：训练集9,716个样本（14.14MB），测试集502个样本（744KB），验证集520个样本（690KB）。数据集下载大小为11.09MB，存储后占用15.58MB空间。数据文件按分割存储于默认配置路径下。

This dataset contains three predefined splits, namely the training set, test set, and validation set, with a total size of 15.58 MB and a total of 10,738 samples. Each sample includes five fields: IdA (string type), IdB (string type), SeqA (string type), SeqB (string type), and labels (integer type). The specific data distribution is as follows: the training set has 9,716 samples (14.14 MB), the test set has 502 samples (744 KB), and the validation set has 520 samples (690 KB). The download size of the dataset is 11.09 MB, and it occupies 15.58 MB of storage space after being saved. The data files are stored in the default configuration path according to the splits.

提供机构：

Gleghorn Lab

创建时间：

2026-02-12

搜集汇总

数据集介绍

构建方式

在蛋白质相互作用预测领域，Signor_2class_clustered-60数据集的构建体现了对生物学序列数据的系统性整合。该数据集通过收集已知的蛋白质对序列信息，并依据其相互作用关系进行标注，形成了包含正负样本的二元分类结构。构建过程中采用了序列聚类策略，以60%的序列相似性作为阈值对蛋白质序列进行聚类，有效控制了数据冗余，提升了样本的代表性。数据集被划分为训练集、验证集和测试集，确保了模型评估的可靠性与泛化能力。

特点

该数据集的核心特点在于其专注于蛋白质相互作用的二元分类任务，每个样本包含一对蛋白质的标识符与序列信息，并附有明确的相互作用标签。通过引入基于序列相似性的聚类处理，数据集在保持生物学相关性的同时，显著降低了序列冗余度，增强了数据的多样性与平衡性。数据规模适中，涵盖近万条样本，且提供了标准化的分割方案，便于直接应用于机器学习模型的训练与验证，为蛋白质功能预测研究提供了结构清晰、质量可控的基础资源。

使用方法

使用Signor_2class_clustered-60数据集时，研究人员可直接加载其预分割的训练、验证与测试集，用于开发或评估蛋白质相互作用预测模型。典型应用流程包括：读取蛋白质对序列与标签，进行必要的特征编码（如氨基酸序列的数值化表示），随后构建分类模型进行训练与调优。数据集的标准格式支持主流机器学习框架的直接集成，用户可基于验证集性能优化超参数，并最终在独立测试集上评估模型泛化表现，从而推动蛋白质相互作用机制的探索与计算生物学方法的发展。

背景与挑战

背景概述

Signor_2class_clustered-60数据集聚焦于蛋白质相互作用预测领域，该领域在系统生物学和药物发现中具有核心地位。该数据集由研究机构在近年构建，旨在通过序列信息识别蛋白质间的功能关联，特别是信号传导网络中的相互作用关系。其核心研究问题在于利用机器学习模型从蛋白质序列中自动推断相互作用类型，从而深化对细胞信号通路的理解，并为靶向治疗提供数据支持。该数据集的发布推动了计算生物学中蛋白质功能预测方法的发展，成为评估模型性能的重要基准之一。

当前挑战

该数据集旨在解决蛋白质相互作用分类的挑战，即从序列数据中准确区分相互作用与非相互作用对，这涉及处理高维稀疏特征和复杂生物背景噪声。构建过程中，挑战包括确保数据质量，如避免序列冗余和偏差，通过聚类方法控制序列相似性在60%以内以增强泛化能力；同时，标注相互作用标签依赖于可靠生物数据库，整合多源信息时需保持一致性与完整性。这些挑战要求精细的数据预处理和验证策略，以支撑稳健的机器学习应用。

常用场景

经典使用场景

在蛋白质相互作用预测领域，Signor_2class_clustered-60数据集被广泛应用于训练和评估机器学习模型，特别是针对信号传导网络中蛋白质对的二元分类任务。该数据集通过提供序列对及其相互作用标签，支持研究者构建精准的预测系统，以识别蛋白质之间的功能关联，从而深化对细胞信号通路的理解。其经典使用场景包括监督学习框架下的模型训练，如支持向量机或深度学习网络，旨在从序列信息中自动提取特征并预测相互作用概率。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，包括开发基于图神经网络或注意力机制的先进预测模型，以提升相互作用识别的准确性与可解释性。这些工作不仅扩展了数据集的用途，还推动了跨学科融合，如将自然语言处理技术应用于序列分析。相关成果常发表于生物信息学与计算生物学顶级会议，进一步丰富了蛋白质互作预测的理论与实践体系。

数据集最近研究