bigbio/bionlp_st_2013_pc
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/bionlp_st_2013_pc
下载链接
链接失效反馈官方服务:
资源简介:
BioNLP 2013 PC数据集是BioNLP共享任务2013的主要事件提取任务,专注于从文本中自动提取生物分子反应。任务的设置、表示和语义是根据路径模型标准和本体(如SBML、BioPAX、SBO)定义的,并且文档是根据特定模型反应的相关性选择的。两个参与者成功完成了该任务,最高F-score为52.8%,表明事件提取是支持路径管理工作的一个有前途的方法。
The BioNLP 2013 PC dataset corresponds to the primary event extraction task of the BioNLP Shared Task 2013, which focuses on automatically extracting biomolecular reactions from text. The setup, representation and semantics of the task are defined in accordance with pathway model standards and ontologies such as SBML, BioPAX and SBO, and the documents are selected based on their relevance to specific model reactions. Two participants successfully completed this task, with the highest F-score reaching 52.8%, indicating that event extraction is a promising approach to support pathway curation efforts.
提供机构:
bigbio
原始信息汇总
BioNLP 2013 PC 数据集概述
基本信息
- 语言: 英语
- 许可证: GENIA_PROJECT_LICENSE
- 多语言性: 单语种
- 数据集名称: BioNLP 2013 PC
- 主页: https://github.com/openbiocorpora/bionlp-st-2013-pc
- 是否公开: 是
- 是否包含PubMed数据: 是
任务描述
- 任务类型:
- 事件抽取 (EVENT_EXTRACTION)
- 命名实体识别 (NAMED_ENTITY_RECOGNITION)
- 指代消解 (COREFERENCE_RESOLUTION)
数据集详情
- 主要任务: 路径way Curation (PC) 任务,专注于从文本中自动提取生物分子反应。
- 任务标准和文档: 根据路径way模型标准和本体(SBML, BioPAX, SBO)定义任务设置、表示和语义,文档选择与特定模型反应相关。
- 成果: 两支队伍成功完成PC任务,最高F-score为52.8%,表明事件抽取是支持路径way编纂工作的有前景方法。
引用信息
@inproceedings{ohta-etal-2013-overview, title = "Overview of the Pathway Curation ({PC}) task of {B}io{NLP} Shared Task 2013", author = "Ohta, Tomoko and Pyysalo, Sampo and Rak, Rafal and Rowley, Andrew and Chun, Hong-Woo and Jung, Sung-Jae and Choi, Sung-Pil and Ananiadou, Sophia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the {B}io{NLP} Shared Task 2013 Workshop", month = aug, year = "2013", address = "Sofia, Bulgaria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W13-2009", pages = "67--75", }
搜集汇总
数据集介绍

构建方式
在生物医学文本挖掘领域,BioNLP 2013 PC数据集作为BioNLP共享任务2013的核心事件抽取任务,其构建聚焦于从科学文献中自动化提取生物分子反应。该数据集严格遵循SBML、BioPAX和SBO等通路模型标准与本体论,通过精心筛选与特定模型反应相关的文档,确保了数据的专业性与代表性。构建过程中,标注工作基于预定义的语义表示,涵盖了事件抽取、命名实体识别及共指消解等多个任务,为后续研究提供了结构化的生物通路知识基础。
特点
该数据集的特点在于其高度专业化的生物医学领域覆盖,专注于生物分子反应的抽取,这在自然语言处理任务中属于前沿且具挑战性的方向。数据集中包含丰富的标注信息,支持事件抽取、命名实体识别和共指消解等多任务学习,为研究者提供了全面的实验平台。其基于通路模型标准的语义定义,使得数据具有较好的可解释性和实用性,最高F-score达到52.8%,证明了事件抽取在支持通路策展工作中的潜力,为生物信息学应用奠定了坚实基础。
使用方法
使用BioNLP 2013 PC数据集时,研究者可首先通过其公开的GitHub主页访问原始数据,数据格式兼容常见的自然语言处理工具。该数据集适用于训练和评估事件抽取、命名实体识别及共指消解模型,用户可基于预定义的标注方案进行模型开发与优化。在实际应用中,建议结合生物医学领域知识进行预处理,以提升模型性能,同时可参考相关论文中的实验设置,确保方法的科学性与可复现性,从而推动生物通路自动抽取技术的发展。
背景与挑战
背景概述
生物医学文本挖掘领域长期致力于从海量文献中自动抽取结构化知识,以支持生物通路建模与系统生物学研究。在此背景下,BioNLP 2013 PC数据集应运而生,由Tomoko Ohta、Sampo Pyysalo、Sophia Ananiadou及Jun'ichi Tsujii等学者于2013年构建,作为BioNLP共享任务的核心组成部分。该数据集聚焦于生物分子反应的事件抽取,其设计紧密对接SBML、BioPAX等通路模型标准与本体,旨在通过计算手段辅助人工通路策展,提升生物网络重建的自动化水平,对计算生物学与生物信息学领域产生了深远影响。
当前挑战
BioNLP 2013 PC数据集所针对的生物分子反应抽取任务,面临生物医学事件结构复杂、嵌套关系普遍以及术语高度专业化的固有挑战,这导致模型在精确识别触发词与论元角色时表现受限。在构建过程中,研究人员需克服标注一致性难题,因为反应类型与实体边界需严格遵循领域本体规范,同时文档筛选需与特定模型反应相关,增加了数据制备的复杂度。尽管最高F值仅达52.8%,这些挑战凸显了生物事件抽取仍是一项艰巨任务,但也印证了其支撑通路策展的潜在价值。
常用场景
经典使用场景
在生物医学文本挖掘领域,BioNLP 2013 PC数据集作为生物分子反应事件抽取的基准资源,其经典应用场景聚焦于从科学文献中自动化提取生物通路相关的分子相互作用。研究者借助该数据集训练和评估自然语言处理模型,以识别文本中提及的蛋白质、基因等实体及其复杂的生化反应事件,如磷酸化、结合或调控过程,从而系统化地构建生物通路知识网络。这一场景深刻体现了计算生物学与语言技术的交叉融合,为高通量文献分析提供了标准化框架。
实际应用
在实际应用中,BioNLP 2013 PC数据集被广泛集成于生物信息学工具和平台,辅助生物学家进行通路注释与模型构建。例如,在药物研发过程中,研究人员利用基于该数据集训练的模型快速扫描海量文献,自动提取药物靶点与代谢路径的关键信息,从而缩短实验周期并降低人力成本。此外,它还为生物数据库如Reactome或KEGG的更新维护提供了自动化支持,增强了生物医学知识管理的智能化水平。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,包括基于深度学习的联合事件抽取模型、跨文档共指解析算法以及多任务学习框架的探索。例如,后续的BioNLP共享任务持续扩展了其标注体系,而诸如BioBERT等预训练语言模型的微调应用进一步提升了事件抽取性能。这些工作不仅深化了生物文本理解的技术边界,还促进了生物医学本体与计算模型之间的语义对齐,形成了持续演进的研究脉络。
以上内容由遇见数据集搜集并总结生成



