bigbio/bionlp_st_2011_rel

Name: bigbio/bionlp_st_2011_rel
Creator: bigbio
Published: 2022-12-22 15:43:54
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/bionlp_st_2011_rel

下载链接

链接失效反馈

官方服务：

资源简介：

BioNLP 2011 REL数据集是一个专注于生物医学领域的自然语言处理数据集，主要用于训练和评估命名实体识别、关系抽取和指代消解三个任务。该数据集特别关注于提取基因/蛋白质与关联实体之间的两种部分关系，是BioNLP Shared Task 2011的一个支持任务。数据集公开可用，并与PubMed相关联，旨在促进生物医学文本分析的研究。

The BioNLP 2011 REL dataset is a natural language processing dataset focused on the biomedical domain, primarily used for training and evaluating three tasks: named entity recognition, relation extraction and coreference resolution. This dataset specifically focuses on extracting two types of partial relations between genes/proteins and associated entities, and it is a supporting task of the BioNLP Shared Task 2011. The dataset is publicly available and linked to PubMed, aiming to promote research on biomedical text analysis.

提供机构：

bigbio

原始信息汇总

BioNLP 2011 REL 数据集概述

基本信息

语言: 英语
许可证: GENIA_PROJECT_LICENSE
多语言性: 单语种
数据集名称: BioNLP 2011 REL
主页: https://github.com/openbiocorpora/bionlp-st-2011-rel
是否公开: 是
是否包含PubMed数据: 是

任务类型

命名实体识别 (NAMED_ENTITY_RECOGNITION)
关系抽取 (RELATION_EXTRACTION)
指代消解 (COREFERENCE_RESOLUTION)

数据集描述

任务详情: 该任务是BioNLP Shared Task 2011的一个支持任务，主要关注从基因/蛋白质与其相关实体之间提取两种类型的部分关系。

引用信息

@inproceedings{10.5555/2107691.2107703, author = {Pyysalo, Sampo and Ohta, Tomoko and Tsujii, Junichi}, title = {Overview of the Entity Relations (REL) Supporting Task of BioNLP Shared Task 2011}, year = {2011}, isbn = {9781937284091}, publisher = {Association for Computational Linguistics}, address = {USA}, abstract = {This paper presents the Entity Relations (REL) task, a supporting task of the BioNLP Shared Task 2011. The task concerns the extraction of two types of part-of relations between a gene/protein and an associated entity. Four teams submitted final results for the REL task, with the highest-performing system achieving 57.7% F-score. While experiments suggest use of the data can help improve event extraction performance, the task data has so far received only limited use in support of event extraction. The REL task continues as an open challenge, with all resources available from the shared task website.}, booktitle = {Proceedings of the BioNLP Shared Task 2011 Workshop}, pages = {83–88}, numpages = {6}, location = {Portland, Oregon}, series = {BioNLP Shared Task 11} }

搜集汇总

数据集介绍

构建方式

在生物医学文本挖掘领域，BioNLP 2011 REL数据集作为BioNLP Shared Task 2011的辅助任务而构建。其构建过程基于精心筛选的生物医学文献摘要，通过专家标注的方式，识别并标注了基因/蛋白质与相关实体之间的两种“部分-整体”关系。该数据集严格遵循共享任务的规范，确保了标注的一致性与科学性，为关系抽取研究提供了高质量的基准数据。

特点

该数据集专注于基因/蛋白质与其他生物医学实体之间的特定关系抽取，其核心特点在于定义了两种明确的“部分-整体”关系类型，结构清晰且目标明确。作为共享任务的一部分，它具备标准的训练集、开发集和测试集划分，便于模型训练与评估。数据来源于真实的PubMed摘要，具有高度的领域相关性和实用性，是推动生物医学关系抽取技术发展的关键资源之一。

使用方法

研究人员可利用该数据集进行命名实体识别、关系抽取及指代消解任务的模型训练与评估。典型的使用流程包括加载标准化的数据集分割，利用其提供的实体与关系标注进行监督学习。该数据集与HuggingFace的BigBIO框架兼容，便于集成到现有的自然语言处理流程中，支持端到端的生物医学信息提取系统开发与性能基准测试。

背景与挑战

背景概述

生物医学文本挖掘领域长期致力于从海量文献中自动化提取结构化知识，以加速生命科学发现。BioNLP 2011 REL数据集应运而生，由Sampo Pyysalo、Tomoko Ohta及Jun'ichi Tsujii等学者于2011年构建，作为BioNLP共享任务的核心支撑任务之一。该数据集聚焦于基因/蛋白质与相关实体间的‘部分-整体’关系抽取，旨在解决生物医学实体间复杂语义关联的自动化识别难题。其发布显著推动了关系抽取技术在生物医学领域的应用，为后续事件抽取系统的性能提升提供了关键数据基础，并在学术界激发了多团队参与竞赛，最高系统性能达到57.7% F值，体现了该任务的前沿挑战性。

当前挑战

BioNLP 2011 REL数据集首要挑战在于生物医学关系抽取本身的高度复杂性：实体如基因和蛋白质常具有多样命名变体，且‘部分-整体’关系在文本中表达隐晦，需依赖深层语义理解而非表面模式。构建过程中，标注工作面临专业壁垒，要求标注者具备深厚生物学知识以确保关系类型（如基因-实体关联）的精确标注，同时文本来源的学术文献包含大量非结构化信息，需设计严谨的标注准则以维持数据一致性与可靠性。尽管数据集支持事件抽取的改进，但其有限的使用范围表明，如何整合多任务学习以最大化数据效用，仍是当前未充分探索的挑战。

常用场景

经典使用场景

在生物医学文本挖掘领域，BioNLP 2011 REL数据集常被用于评估和优化关系抽取模型。该数据集聚焦于基因或蛋白质与相关实体之间的部分-整体关系，为研究者提供了标准化的标注语料。通过这一数据集，学者能够系统地探索生物医学文献中实体关联的自动识别方法，从而推动信息提取技术的进步。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，包括改进的关系抽取模型和跨任务学习框架。例如，一些研究利用该数据训练深度学习模型，以提升生物医学事件抽取的整体性能；其他工作则将其与其他BioNLP共享任务数据结合，探索多任务学习在生物文本挖掘中的潜力，进一步推动了领域的发展。

数据集最近研究