five

Signor_3class_clustered-30

收藏
Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/Signor_3class_clustered-30
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含成对的序列数据,每条记录由两个ID字段(IdA、IdB)、两个序列字段(SeqA、SeqB)和一个整型标签(labels)组成。数据集划分为训练集(13,217条)、测试集(1,008条)和验证集(1,019条),总大小约21.9MB。数据文件按默认配置存储在train-*、test-*和valid-*路径下。未提供具体的应用场景或任务描述。
提供机构:
Gleghorn Lab
创建时间:
2026-02-12
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质相互作用预测领域,Signor_3class_clustered-30数据集通过系统化流程构建而成。该数据集整合了来自Signor数据库的蛋白质相互作用对,并依据序列相似性进行聚类处理,设定30%的序列一致性阈值以消除冗余,确保数据多样性。每条记录包含相互作用蛋白质对的标识符、氨基酸序列以及三类分类标签,数据被划分为训练集、验证集和测试集,为机器学习模型提供了结构化的基准数据。
特点
该数据集的核心特征体现在其精心设计的结构与内容上。它提供了蛋白质对的唯一标识符与完整氨基酸序列,便于进行深入的序列分析。三类分类标签涵盖了激活、抑制等关键相互作用类型,支持多类别预测任务。数据经过聚类去冗余处理,提升了样本的代表性与模型泛化能力。标准的训练、验证与测试划分确保了评估的可靠性与可复现性,为蛋白质功能研究提供了高质量资源。
使用方法
研究人员可借助该数据集开展蛋白质相互作用的分类模型训练与评估。典型流程包括加载数据分割,利用序列特征进行嵌入或编码,构建分类器以预测三类相互作用标签。验证集用于超参数调优,测试集则用于最终性能评估。该数据集适用于监督学习框架,能够支撑从基础序列分析到复杂深度学习模型的一系列生物信息学应用。
背景与挑战
背景概述
在生物信息学领域,蛋白质-蛋白质相互作用(PPI)的预测是理解细胞功能与疾病机制的核心课题。Signor_3class_clustered-30数据集应运而生,旨在通过结构化数据支持机器学习模型识别蛋白质间的激活、抑制或无关关系。该数据集由专业研究团队构建,整合了Signor数据库中的已验证相互作用,并采用聚类策略以降低序列冗余性,从而提升模型的泛化能力与可靠性。其创建反映了计算生物学从传统实验验证向数据驱动分析的范式转变,为药物靶点发现与信号通路解析提供了关键资源。
当前挑战
该数据集致力于解决蛋白质-蛋白质相互作用类型分类的挑战,其核心难点在于生物相互作用的动态性与上下文依赖性,模型需从有限序列信息中推断复杂的功能关系。构建过程中,研究人员面临数据稀疏性与标注一致性的问题,原始Signor数据库的覆盖范围有限,且人工标注可能引入主观偏差。此外,通过聚类降低序列相似性虽能减少过拟合风险,但可能丢失关键的功能变异信息,平衡数据代表性与多样性成为一项持续的技术挑战。
常用场景
经典使用场景
在蛋白质相互作用预测领域,Signor_3class_clustered-30数据集为研究者提供了一个标准化的评估平台,其核心应用场景在于训练和验证深度学习模型,以识别蛋白质序列之间的功能关联。该数据集通过整合蛋白质对序列及其分类标签,支持监督学习方法的实施,使得模型能够从大规模生物数据中自动学习相互作用模式,从而推动计算生物学中蛋白质网络构建的自动化进程。
解决学术问题
该数据集有效解决了蛋白质相互作用预测中数据稀疏性和标注一致性等关键学术挑战。通过提供聚类处理后的蛋白质对样本,它减少了序列冗余性,增强了模型的泛化能力,并支持多类别分类任务,帮助研究者探索蛋白质相互作用的机制与规律。其结构化设计促进了机器学习算法在生物信息学中的可重复性研究,为理解细胞信号传导等复杂生物过程提供了数据基础。
衍生相关工作
基于Signor_3class_clustered-30数据集,衍生出多项经典研究工作,包括基于图神经网络的蛋白质互作预测模型和跨物种相互作用迁移学习框架。这些工作不仅提升了预测精度,还扩展了数据集在进化生物学和系统生物学中的应用范围,推动了生物信息学与人工智能的交叉融合,为后续大规模蛋白质功能注释研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作