bigbio/bioscope

Name: bigbio/bioscope
Creator: bigbio
Published: 2022-12-22 15:44:13
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/bioscope

下载链接

链接失效反馈

官方服务：

资源简介：

BioScope语料库由医学和生物学文本组成，这些文本被标注了否定、推测及其语言学范围。这样做的目的是为了比较否定/推测检测和范围解析系统的发展。BioScope语料库由两位独立语言学家根据我们语言专家编写的指南进行标注。

The BioScope corpus consists of medical and biological texts annotated for negation, speculation, and their linguistic scopes. This corpus was developed to facilitate the comparison of negation/speculation detection and scope resolution systems. The BioScope corpus was annotated by two independent linguists based on guidelines compiled by our language experts.

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: BioScope
语言: 英语
许可证: CC-BY-2.0
多语言性: 单语种
公共可用性: 是
PubMed可用性: 是

数据集描述

内容: 包含医学和生物学文本，特别标注了否定、推测及其语言范围。
目的: 用于比较否定/推测检测系统的发展和范围解析。
标注过程: 由两位独立语言学家根据专家制定的指南进行标注。

任务类型

主要任务: 命名实体识别（NER）

引用信息

@article{vincze2008bioscope, title={The BioScope corpus: biomedical texts annotated for uncertainty, negation and their scopes}, author={Vincze, Veronika and Szarvas, Gy{"o}rgy and Farkas, Rich{a}rd and M{o}ra, Gy{"o}rgy and Csirik, J{a}nos}, journal={BMC bioinformatics}, volume={9}, number={11}, pages={1--9}, year={2008}, publisher={BioMed Central} }

搜集汇总

数据集介绍

构建方式

BioScope数据集聚焦于生物医学文本中的否定与不确定表达及其语言作用范围的标注。该语料库由两位独立语言学家依据领域专家预先制定的标注指南进行构建，旨在为否定/模糊检测及范围解析系统的开发提供标准化的比较基准。语料来源涵盖医学与生物学文献，确保了标注内容的专业性与多样性。

使用方法

BioScope数据集主要面向命名实体识别（NER）任务，尤其适用于训练和评估能够同时处理否定/模糊标记及其作用范围的模型。用户可通过HuggingFace的datasets库加载该数据集，并利用其预定义的训练/测试划分进行模型开发。推荐结合序列标注框架（如BiLSTM-CRF或Transformer）进行scope边界预测，以充分发挥其标注粒度优势。

背景与挑战

背景概述

在生物医学文本挖掘领域，否定与模糊表达的识别是信息抽取的核心挑战之一。BioScope语料库由匈牙利塞格德大学的研究团队于2008年创建，旨在系统性地解决医学与生物学文献中否定、推测及其语言学范围的标注问题。该语料库由两位独立语言学家依据专家制定的标注指南进行手工标注，涵盖了PubMed收录的大量生物医学论文。其核心研究问题在于如何通过细粒度的范围标注，提升自然语言处理系统对不确定性表达的解析能力。自发布以来，BioScope已成为否定与模糊检测领域的基准资源，推动了相关算法在临床决策支持与知识图谱构建中的应用。

当前挑战

BioScope所应对的领域挑战在于生物医学文本中否定与推测表达的复杂性——同一否定词在不同语境下可能覆盖不同的语义范围，而模糊标记如情态动词或条件句的识别更易受领域术语干扰。构建过程中，标注一致性是首要难题：两位标注者需对长达数十万词的文本进行逐句判读，确保否定词（如“no”、“not”）与推测词（如“may”、“suggest”）的边界划分符合语言学规范。此外，跨句子范围的嵌套结构（例如否定修饰的从句内再含推测）增加了标注歧义，需通过多轮专家协商达成标准。这些挑战使得语料库的高质量构建成为后续模型训练的关键瓶颈。

常用场景

经典使用场景

BioScope语料库是生物医学自然语言处理领域中用于否定与不确定性检测及范围解析的经典资源。该数据集精选了医学和生物学文献，由专业语言学家依据统一指南进行双重标注，精准刻画出否定词（如“no”、“not”）和模糊性表达（如“suggest”、“likely”）及其所修饰的文本范围。研究者常将其作为基准语料，训练和评估序列标注模型，以自动识别生物医学文本中的否定与推测信息，从而提升信息抽取系统的准确性。

解决学术问题

BioScope语料库的核心学术价值在于解决了生物医学文献中否定与不确定性表达的自动识别难题。传统信息抽取系统常因忽略否定词或推测性语言而提取错误事实，例如将“患者未出现症状”中的症状误判为存在。该数据集通过提供细粒度的范围标注，使研究者能够开发出区分肯定、否定与不确定信息的方法，显著降低了生物医学知识挖掘中的假阳性率，为文献计量分析、临床决策支持等下游任务奠定了可靠基础。

实际应用

在实际应用中，BioScope语料库赋能了临床文本分析系统的构建。例如，在电子病历处理中，系统可借助基于该数据集训练的模型，准确识别出“无发热”、“可能感染”等关键医疗状态，辅助医生快速筛选患者。此外，在药物不良反应监测场景中，自动识别“未观察到严重副作用”等否定表述，能有效避免错误警报，提升药物警戒系统的效率。该语料库还常用于生物医学搜索引擎的查询扩展，帮助用户区分确证与推测性研究结论。

数据集最近研究