Signor_processed

Name: Signor_processed
Creator: Gleghorn Lab
Published: 2026-02-05 03:46:40
License: 暂无描述

Hugging Face2026-02-05 更新2026-02-07 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/Signor_processed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于SIGNOR 4.0数据库，包含人类(Homo sapiens)蛋白质-蛋白质相互作用数据。数据集经过严格筛选，仅保留TYPEA和TYPEB均为'protein'且DIRECT为'YES'的条目，排除了EFFECT为'uknown'或'form complex'的条目，并进行了去重处理。数据集包含以下特征字段：IdA(字符串)、IdB(字符串)、labels(浮点数)、mechanism(字符串)、effect(字符串)、score(浮点数)、sentence(字符串)和signor_id(字符串)。标签分配规则为：EFFECT为'binding'的条目及其反向条目标记为2，其余条目标记为1并添加其反向条目(标记为0)。数据集包含31,474个训练样本，总大小约12.8MB。适用于蛋白质相互作用预测和相关生物医学研究任务。

提供机构：

Gleghorn Lab

创建时间：

2026-02-05

搜集汇总

数据集介绍

构建方式

在生物信息学领域，蛋白质相互作用数据的系统化整理对于理解细胞信号传导至关重要。Signor_processed数据集基于SIGNOR 4.0数据库构建，专门针对智人（Homo sapiens）的完整数据集进行筛选。构建过程首先保留了类型为蛋白质的实体间直接相互作用条目，并剔除了效应未知或为“形成复合物”的记录。通过精选相关列并重命名，去除了重复数据后，依据相互作用的性质分配标签：将“结合”效应及其反向存在的条目标记为2，其余条目标记为1，并进一步通过反转这些条目的标识符生成标签为0的负样本对，从而构建了一个包含正负样本的平衡数据集。

特点

该数据集在信号传导研究领域展现出显著的结构化特征，其核心在于对蛋白质相互作用的多维度标注。每条记录不仅包含相互作用的蛋白质标识符（IdA与IdB），还详细描述了作用机制（mechanism）、效应（effect）及置信度评分（score），并附有支持该关系的原始句子（sentence）和SIGNOR唯一标识（signor_id）。标签系统经过精心设计，采用0、1、2三级分类，区分无相互作用、一般相互作用及特异性结合关系，这种细粒度标注为机器学习模型提供了丰富的监督信号。数据集规模适中，包含超过三万个训练样本，确保了数据的代表性与可用性。

使用方法

对于研究人员而言，该数据集可直接应用于蛋白质相互作用预测与关系分类任务。典型的使用流程是从HuggingFace平台加载数据集，利用其预定义的训练分割进行模型训练与评估。在机器学习实践中，可以结合IdA、IdB、sentence等文本特征，以及mechanism、effect等类别特征，构建多模态输入。标签字段（labels）作为监督目标，适用于分类或回归模型，以预测蛋白质对之间是否存在相互作用及其类型。此外，score字段可作为训练权重或模型置信度校准的参考，而signor_id便于追溯至原始数据库进行深入验证或扩展分析。

背景与挑战

背景概述

Signor_processed数据集源于SIGNOR 4.0数据库，该数据库由意大利罗马大学的研究团队于2026年构建，专注于系统生物学领域中的信号网络关系标注。该数据集的核心研究问题在于解析蛋白质间的相互作用机制与效应，特别是直接调控关系，为信号转导通路建模、药物靶点发现及疾病机制研究提供结构化知识支持。通过筛选人类蛋白质的直接作用条目，并清理未知效应与冗余数据，该数据集强化了生物医学计算中关系预测的可靠性，对网络药理学与系统生物学的发展产生了实质性推动。

当前挑战

该数据集旨在解决蛋白质相互作用预测中的机制与效应分类挑战，尤其在区分结合、激活、抑制等精细生物功能时面临语义模糊性与标注不一致性。构建过程中的挑战包括从原始SIGNOR数据库中过滤非蛋白质条目与间接关系，处理效应字段的缺失或歧义值，以及通过标签分配策略处理双向作用对的对称性问题，确保数据的一致性与可计算性。

常用场景

经典使用场景

在生物信息学领域，Signor_processed数据集为蛋白质相互作用研究提供了结构化资源。该数据集通过筛选人类蛋白质间的直接作用关系，并标注效应类型与置信度，常用于构建蛋白质信号网络模型。研究者利用其标注的激活、抑制或结合等效应，训练机器学习模型以预测未知的蛋白质相互作用，从而揭示细胞信号传导的复杂机制。

衍生相关工作

基于Signor_processed数据集，衍生了一系列经典研究工作。例如，研究人员开发了基于图神经网络的蛋白质相互作用预测模型，利用该数据集的标签进行训练与验证。此外，该数据集常被整合到多组学分析流程中，与基因表达、代谢数据结合，用于构建全细胞信号图谱，促进了系统生物学领域的模型开发与理论创新。

数据集最近研究