Signor_2class
收藏Hugging Face2026-02-11 更新2026-02-12 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/Signor_2class
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含20,260个训练样本,总大小约为8.08MB(下载大小3.28MB)。数据结构包含8个字段:IdA(字符串类型)、IdB(字符串类型)、labels(整型)、mechanism(字符串类型)、effect(字符串类型)、score(浮点型)、sentence(字符串类型)和signor_id(字符串类型)。数据集仅提供训练集划分,未说明具体应用背景或任务类型,但字段命名暗示可能涉及生物医学或分子相互作用领域(如mechanism/effect字段)的文本标注任务。
提供机构:
Gleghorn Lab
创建时间:
2026-02-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: Signor_2class
- 托管平台: Hugging Face Datasets
- 数据集地址: https://huggingface.co/datasets/GleghornLab/Signor_2class
数据规模
- 训练集样本数量: 20,260 条
- 训练集大小: 8,075,990 字节
- 下载大小: 3,280,562 字节
- 数据集总大小: 8,075,990 字节
数据结构与特征
数据集包含以下字段:
- IdA: 字符串类型,标识符A。
- IdB: 字符串类型,标识符B。
- labels: 整数类型(int64),类别标签。
- mechanism: 字符串类型,作用机制。
- effect: 字符串类型,效应。
- score: 浮点数类型(float64),分数。
- sentence: 字符串类型,文本句子。
- signor_id: 字符串类型,Signor标识符。
数据划分
- 仅包含一个数据划分:train(训练集)。
配置与文件
- 默认配置名称: default
- 数据文件路径:
data/train-*
搜集汇总
数据集介绍

构建方式
在生物医学信息学领域,Signor_2class数据集通过系统化整合Signor数据库中的蛋白质相互作用信息构建而成。该过程涉及从科学文献中提取实体关系,将蛋白质对(IdA与IdB)与调控机制、效应及支持性句子关联,并基于置信度评分赋予二元分类标签。数据经过结构化处理,确保每个样本包含完整的生物学上下文与证据来源,形成了涵盖两万余条训练实例的标准化语料库。
特点
该数据集的核心特征在于其专注于蛋白质相互作用的二元分类任务,标签清晰定义了关系的存在与否。每条记录不仅包含蛋白质标识符与分类结果,还提供了详细的机制描述、效应方向、置信度分数以及原文句子,从而融合了结构化数据与文本证据。这种多维度信息集成增强了数据集的解释性与可靠性,适用于需要结合生物医学知识与自然语言处理的研究场景。
使用方法
研究人员可借助该数据集训练或评估关系抽取与分类模型,尤其适用于生物医学文本挖掘与知识图谱构建。使用时应加载训练分割,利用IdA、IdB与句子特征作为输入,以标签为目标进行监督学习。机制、效应与评分等元数据可用于结果分析或模型可解释性增强,而signor_id则支持与原始数据库的交叉验证,确保研究的一致性与可追溯性。
背景与挑战
背景概述
Signor_2class数据集聚焦于生物医学信号转导网络的构建与分析,由欧洲生物信息学研究所等机构的研究团队在近年开发。该数据集旨在解析蛋白质相互作用中的调控机制与效应关系,通过标注分子间激活或抑制的因果关系,为核心研究问题——即如何从科学文献中自动提取并结构化信号通路知识——提供了关键资源。其创建推动了计算生物学领域的发展,特别是在关系抽取和知识图谱构建方面,为药物发现和疾病机制研究奠定了数据基础。
当前挑战
该数据集致力于解决生物医学文本挖掘中信号转导关系抽取的挑战,其核心问题在于从复杂文献中准确识别蛋白质相互作用的调控类型(如激活或抑制),这涉及处理自然语言的歧义性和领域特异性术语。在构建过程中,研究人员面临标注一致性的难题,需确保不同标注者对机制与效应关系的解释具有高度统一性;同时,数据整合来自多源科学文献,要求处理异构信息并验证生物学准确性,以保障数据质量与可靠性。
常用场景
衍生相关工作
基于Signor_2class数据集,衍生出了一系列经典的生物医学关系抽取研究。例如,利用深度学习模型如BERT或图神经网络,对蛋白质相互作用进行细粒度分类和预测的工作不断涌现。这些研究不仅优化了关系抽取的准确率,还扩展了数据集在跨物种信号网络比较和动态通路建模中的应用,为生物医学知识图谱的构建和智能问答系统的发展提供了重要参考。
数据集最近研究
最新研究方向
在生物医学关系抽取领域,Signor_2class数据集聚焦于信号通路中蛋白质相互作用的二元分类任务,其最新研究正推动深度学习模型在复杂生物网络中的精准解析。前沿工作集中于结合预训练语言模型与图神经网络,以捕捉蛋白质间机制与效应的语义关联,同时应对数据稀疏性与噪声挑战。热点事件如AlphaFold在结构预测上的突破,激发了跨模态融合研究,将序列、结构与文本信息整合,提升关系推断的可解释性。这一方向不仅加速了药物靶点发现与疾病机制探索,也为系统生物学提供了可扩展的计算框架,具有深远的科学影响。
以上内容由遇见数据集搜集并总结生成



