Signor_2class

Name: Signor_2class
Creator: Gleghorn Lab
Published: 2026-02-11 23:21:10
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/Signor_2class

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含20,260个训练样本，总大小约为8.08MB（下载大小3.28MB）。数据结构包含8个字段：IdA（字符串类型）、IdB（字符串类型）、labels（整型）、mechanism（字符串类型）、effect（字符串类型）、score（浮点型）、sentence（字符串类型）和signor_id（字符串类型）。数据集仅提供训练集划分，未说明具体应用背景或任务类型，但字段命名暗示可能涉及生物医学或分子相互作用领域（如mechanism/effect字段）的文本标注任务。

提供机构：

Gleghorn Lab

创建时间：

2026-02-11

原始信息汇总

数据集概述

基本信息

数据集名称: Signor_2class
托管平台: Hugging Face Datasets
数据集地址: https://huggingface.co/datasets/GleghornLab/Signor_2class

数据规模

训练集样本数量: 20,260 条
训练集大小: 8,075,990 字节
下载大小: 3,280,562 字节
数据集总大小: 8,075,990 字节

数据结构与特征

数据集包含以下字段：

IdA: 字符串类型，标识符A。
IdB: 字符串类型，标识符B。
labels: 整数类型（int64），类别标签。
mechanism: 字符串类型，作用机制。
effect: 字符串类型，效应。
score: 浮点数类型（float64），分数。
sentence: 字符串类型，文本句子。
signor_id: 字符串类型，Signor标识符。

数据划分

仅包含一个数据划分：train（训练集）。

配置与文件

默认配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，Signor_2class数据集通过系统化整合Signor数据库中的蛋白质相互作用信息构建而成。该过程涉及从科学文献中提取实体关系，将蛋白质对（IdA与IdB）与调控机制、效应及支持性句子关联，并基于置信度评分赋予二元分类标签。数据经过结构化处理，确保每个样本包含完整的生物学上下文与证据来源，形成了涵盖两万余条训练实例的标准化语料库。

特点

该数据集的核心特征在于其专注于蛋白质相互作用的二元分类任务，标签清晰定义了关系的存在与否。每条记录不仅包含蛋白质标识符与分类结果，还提供了详细的机制描述、效应方向、置信度分数以及原文句子，从而融合了结构化数据与文本证据。这种多维度信息集成增强了数据集的解释性与可靠性，适用于需要结合生物医学知识与自然语言处理的研究场景。

使用方法

研究人员可借助该数据集训练或评估关系抽取与分类模型，尤其适用于生物医学文本挖掘与知识图谱构建。使用时应加载训练分割，利用IdA、IdB与句子特征作为输入，以标签为目标进行监督学习。机制、效应与评分等元数据可用于结果分析或模型可解释性增强，而signor_id则支持与原始数据库的交叉验证，确保研究的一致性与可追溯性。

背景与挑战

背景概述

Signor_2class数据集聚焦于生物医学信号转导网络的构建与分析，由欧洲生物信息学研究所等机构的研究团队在近年开发。该数据集旨在解析蛋白质相互作用中的调控机制与效应关系，通过标注分子间激活或抑制的因果关系，为核心研究问题——即如何从科学文献中自动提取并结构化信号通路知识——提供了关键资源。其创建推动了计算生物学领域的发展，特别是在关系抽取和知识图谱构建方面，为药物发现和疾病机制研究奠定了数据基础。

当前挑战

该数据集致力于解决生物医学文本挖掘中信号转导关系抽取的挑战，其核心问题在于从复杂文献中准确识别蛋白质相互作用的调控类型（如激活或抑制），这涉及处理自然语言的歧义性和领域特异性术语。在构建过程中，研究人员面临标注一致性的难题，需确保不同标注者对机制与效应关系的解释具有高度统一性；同时，数据整合来自多源科学文献，要求处理异构信息并验证生物学准确性，以保障数据质量与可靠性。

常用场景

衍生相关工作

基于Signor_2class数据集，衍生出了一系列经典的生物医学关系抽取研究。例如，利用深度学习模型如BERT或图神经网络，对蛋白质相互作用进行细粒度分类和预测的工作不断涌现。这些研究不仅优化了关系抽取的准确率，还扩展了数据集在跨物种信号网络比较和动态通路建模中的应用，为生物医学知识图谱的构建和智能问答系统的发展提供了重要参考。

数据集最近研究