five

Signor_3class_clustered-60

收藏
Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/Signor_3class_clustered-60
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含结构化生物序列数据,由12844个训练样本、1001个测试样本和1001个验证样本组成。每个样本包含五个字段:IdA(字符串类型)、IdB(字符串类型)、SeqA(字符串类型)、SeqB(字符串类型)以及labels(64位整型)。数据集总大小约21.1MB,下载体积约16.4MB。数据已预分为train/test/valid三个标准分割,分别对应18258284字节(12844例)、1339070字节(1001例)和1550122字节(1001例)。数据文件按分割存储于data/路径下,采用分片存储格式(train-*, test-*, valid-*)。
提供机构:
Gleghorn Lab
创建时间:
2026-02-12
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质相互作用预测领域,Signor_3class_clustered-60数据集的构建体现了对生物学数据系统化处理的严谨性。该数据集通过整合Signor数据库中的蛋白质相互作用信息,并采用序列相似性聚类方法,以60%的序列一致性阈值对蛋白质对进行聚类,旨在降低数据冗余并增强模型的泛化能力。构建过程中,蛋白质对依据其相互作用类型被标注为三类标签,形成了包含训练、验证和测试三个标准分割的结构化数据集,为机器学习模型提供了可靠的基准。
特点
Signor_3class_clustered-60数据集的核心特点在于其经过优化的数据结构和明确的分类框架。数据集包含蛋白质对的唯一标识符、序列信息以及三类相互作用标签,这些特征共同支撑了蛋白质功能预测任务的多样性需求。通过聚类处理,数据集有效控制了序列相似性带来的偏差,确保了样本的代表性和独立性。其标准化的分割方式,包括12844个训练样本、1001个验证样本和1001个测试样本,为模型评估提供了稳定的数据基础,促进了生物信息学研究的可重复性。
使用方法
使用Signor_3class_clustered-60数据集时,研究者可将其应用于蛋白质相互作用分类或相关机器学习模型的训练与评估。数据集的标准分割允许用户直接加载训练集进行模型拟合,利用验证集调整超参数,并通过测试集评估最终性能。在实践过程中,建议结合蛋白质序列特征提取技术,如嵌入表示或生物信息学工具,以充分挖掘数据中的生物学模式。该数据集适用于监督学习框架,支持跨领域研究,如药物发现或系统生物学分析。
背景与挑战
背景概述
在生物信息学领域,蛋白质-蛋白质相互作用(PPI)的预测是理解细胞功能与疾病机制的核心课题。Signor_3class_clustered-60数据集由Signor数据库衍生而来,该数据库由欧洲分子生物学实验室(EMBL)等机构维护,专注于记录信号网络中的因果关系。此数据集通过聚类处理,旨在系统化地标注蛋白质对之间的相互作用类型,为机器学习模型提供结构化训练资源,推动信号转导通路的高通量分析,对药物靶点发现与系统生物学研究具有深远影响。
当前挑战
该数据集致力于解决蛋白质-蛋白质相互作用分类的挑战,即从序列信息中准确推断相互作用的模式与强度,这涉及处理生物序列的高维性与功能复杂性。在构建过程中,主要挑战源于数据整合与质量控制:原始Signor数据库中的因果关系需转化为机器学习可用的标签,同时通过聚类降低冗余性并保持生物学意义,确保序列对(SeqA与SeqB)与标签(labels)的对应既一致又具代表性,以支持稳健的模型泛化。
常用场景
经典使用场景
在蛋白质相互作用预测领域,Signor_3class_clustered-60数据集常被用于训练和评估机器学习模型,以识别蛋白质序列之间的功能关联。该数据集通过提供成对的蛋白质序列及其相互作用标签,支持监督学习方法的开发,特别是在序列相似性较低的情况下,模型能够捕捉到非直观的相互作用模式,从而推动计算生物学中蛋白质网络构建的精准化。
解决学术问题
该数据集有效解决了蛋白质相互作用预测中数据稀疏性和标签不平衡的学术挑战。通过聚类处理减少序列冗余,并涵盖激活、抑制和未相互作用三类标签,它为研究者提供了标准化的基准,促进了算法在复杂生物系统中的泛化能力研究,对理解细胞信号传导机制具有重要理论意义。
衍生相关工作
该数据集衍生了多项经典研究工作,包括基于深度学习的蛋白质嵌入方法和图神经网络模型。这些工作利用其结构化标签,开发了如SignorNet等预测系统,显著提升了相互作用预测的准确率。相关成果已发表于生物信息学期刊,推动了计算生物学与人工智能的交叉融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作