Signor_3class
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/Signor_3class
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含30,630个训练样本,总大小12.57MB。数据结构包含8个字段:IdA和IdB(字符串类型,可能为实体标识符)、labels(整型标签)、mechanism和effect(字符串类型,可能描述作用机制和效果)、score(浮点型评分)、sentence(文本字符串)以及signor_id(字符串标识符)。数据以单一训练集形式组织,下载大小为5.05MB。从字段命名推断,该数据集可能适用于关系分析(如机制-效果关系建模)、文本分类或评分预测等任务,但具体领域需结合signor_id等字段进一步确认。
提供机构:
Gleghorn Lab
创建时间:
2026-02-11
原始信息汇总
Signor_3class 数据集概述
数据集基本信息
- 数据集名称: Signor_3class
- 发布者/机构: GleghornLab
- 数据格式: 结构化数据(包含多个特征字段)
- 总大小: 12,566,469 字节
- 下载大小: 5,053,219 字节
- 数据分割: 仅包含训练集(train)
- 训练集样本数量: 30,630 条
数据字段说明
数据集包含以下8个特征字段:
- IdA: 字符串类型,标识符A。
- IdB: 字符串类型,标识符B。
- labels: 整数类型(int64),类别标签。
- mechanism: 字符串类型,作用机制。
- effect: 字符串类型,效应。
- score: 浮点数类型(float64),评分。
- sentence: 字符串类型,文本句子。
- signor_id: 字符串类型,Signor标识符。
数据获取与使用
- 配置文件: 默认配置(
default)。 - 数据文件路径:
data/train-*(对应训练集分割)。 - 访问地址: https://huggingface.co/datasets/GleghornLab/Signor_3class
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,Signor_3class数据集的构建源于对蛋白质相互作用机制的深度解析需求。该数据集通过系统性地整合Signor数据库中的蛋白质相互作用记录,并采用自然语言处理技术从相关科学文献中提取描述性语句,从而构建了一个结构化的三元组集合。每个数据样本均包含一对蛋白质标识符、相互作用标签、作用机制、效应方向、置信度分数以及对应的文献句子,确保了数据来源的可靠性与可追溯性。
特点
Signor_3class数据集的核心特点在于其精细的标注体系与多维度的信息表征。数据集不仅提供了蛋白质相互作用的二元分类标签,还涵盖了具体的生物机制(如磷酸化、调控等)和效应方向(如激活、抑制),并附带了从原始文献中提取的上下文句子,为模型理解生物语义提供了丰富的语言线索。此外,每个相互作用均配有置信度评分,便于研究者根据可靠性阈值进行数据筛选或加权分析。
使用方法
该数据集适用于训练和评估生物医学关系抽取与分类模型,特别是在蛋白质相互作用预测任务中具有重要价值。使用者可直接加载数据集进行监督学习,利用蛋白质标识符、机制标签和句子文本作为特征输入,预测相互作用类型或效应方向。对于进阶研究,可结合置信度分数进行分层训练或不确定性分析,亦可通过句子字段实现多模态学习,以增强模型对生物语境的理解能力。
背景与挑战
背景概述
Signor_3class数据集聚焦于生物医学领域的信号通路关系抽取,由欧洲分子生物学实验室(EMBL)的研究团队于近年构建,旨在系统化地标注蛋白质间相互作用及其调控机制。该数据集的核心研究问题在于从科学文献中自动识别并分类生物实体间的功能关系,特别是激活、抑制与调控三类关键作用,为计算生物学和药物发现提供结构化知识支持。其构建基于Signor数据库,该库收录了经专家验证的蛋白质信号通路数据,通过整合自然语言处理技术,将非结构化文本转化为机器可读的标注数据,显著推动了生物医学文本挖掘与知识图谱构建领域的发展,成为关系抽取任务中的重要基准资源。
当前挑战
该数据集所解决的领域问题在于生物医学关系抽取,其挑战主要体现在生物实体名称的多样性与复杂性,例如蛋白质同义词和缩写频繁出现,增加了模型准确匹配的难度;同时,科学文献中关系的表达方式高度依赖上下文,隐含逻辑与间接描述使得自动化标注易受歧义干扰。在构建过程中,挑战集中于数据标注的标准化与一致性,需依赖领域专家进行人工校验以确保机制(如激活或抑制)与效应标注的精确性,而大规模标注的成本与时间消耗也成为制约数据集扩展的关键因素;此外,从非结构化文本到结构化数据的转换中,句子级别的信息抽取需平衡语义完整性与噪声过滤,这对标注流程的设计提出了较高要求。
常用场景
解决学术问题
Signor_3class数据集解决了生物医学研究中蛋白质相互作用预测的标准化难题。它通过提供高质量、人工标注的相互作用标签,帮助研究者克服了传统方法中数据噪声大、标注不一致的局限。该数据集促进了计算模型在信号通路推断、疾病机制探索等领域的应用,为系统生物学提供了可靠的数据基础。
衍生相关工作
基于Signor_3class数据集,衍生出多项经典研究工作,包括深度学习框架在蛋白质相互作用预测中的优化。例如,研究者开发了基于注意力机制的神经网络模型,利用该数据集的句子描述和分数特征,提升了关系分类的准确性。这些工作进一步推动了生物文本挖掘与计算生物学的交叉融合。
以上内容由遇见数据集搜集并总结生成



