NUBes
收藏github2023-11-22 更新2024-05-31 收录
下载链接:
https://github.com/Vicomtech/NUBes-negation-uncertainty-biomedical-corpus
下载链接
链接失效反馈官方服务:
资源简介:
NUBes语料库(来自“西班牙生物医学文本中的否定和不确定性标注”)由从匿名健康记录中获得的句子组成,并标注了否定和不确定性现象。据我们所知,它是目前公开可用的最大的西班牙语否定语料库,也是第一个包含推测线索、范围和事件标注的语料库。
The NUBes corpus (from 'Annotation of Negation and Uncertainty in Spanish Biomedical Texts') consists of sentences derived from anonymized health records, annotated for negation and uncertainty phenomena. To our knowledge, it is the largest publicly available Spanish corpus on negation and the first to include annotations for speculative cues, scope, and events.
创建时间:
2020-03-02
原始信息汇总
数据集概述
数据集名称
- NUBes: 西班牙临床文本中的否定和不确定性语料库
数据集内容
- NUBes: 包含从匿名健康记录中提取的句子,并标注了否定和不确定性现象。
- IULA+: IULA-SCRC语料库的新版本,同样文本按照NUBes指南进行标注。
数据集格式
- NUBes和IULA+均采用BRAT standoff格式。
数据集大小和组成
- NUBes:
- 分为10个样本,每个样本约3,000个句子。
- 第一个样本经过两名注释者和一名裁判的注释过程,其余样本由单人注释。
- 每个样本中的句子根据医学专业和报告部分进行分组。
- IULA+:
- 包含3,363个句子。
- 与NUBes使用相同的文本,但按照NUBes的指南进行标注。
数据保护
- NUBes中的所有敏感信息已被替换为虚假相似数据,并且句子已被打乱,以防止去匿名化。
相关出版物
- 关于NUBes的详细信息,请参阅文章"NUBes: A Corpus of Negation and Uncertainty in Spanish Clinical Texts"。
- 关于IULA-SCRC的详细信息,请参阅文章"Annotation of negation in the IULA Spanish Clinical Record Corpus"。
引用信息
- 使用NUBes或IULA+时,请按照提供的BibTeX格式进行引用。
许可证
- NUBes、IULA+及其相关资源和指南根据Creative Commons Attribution-ShareAlike 3.0 Spain License授权。
搜集汇总
数据集介绍

构建方式
NUBes数据集的构建基于西班牙语临床文本,通过匿名化处理健康记录中的句子,并对其中的否定和不确定性现象进行标注。数据集由10个样本组成,每个样本包含约3000个句子,其中第一个样本由两名标注者和一名裁判共同完成,其余样本则由单人标注。句子按医学专业和报告部分分组,确保数据的多样性和专业性。
特点
NUBes数据集是目前公开的最大西班牙语否定标注语料库,首次引入了推测线索、范围和事件的标注。数据集包含29,682个句子和518,068个词汇,涵盖31,698个词汇量。其独特之处在于对否定和不确定性现象的详细标注,包括线索、范围和事件,为自然语言处理任务提供了丰富的语义信息。
使用方法
NUBes数据集以BRAT标准格式分发,用户可通过Git LFS获取数据。数据集适用于训练和评估自然语言处理模型,特别是针对否定和不确定性现象的识别任务。提供的脚本如`ablation.py`和`eval.py`支持特征消融实验和模型评估,用户可根据需求调整输入输出路径和并行处理数量。
背景与挑战
背景概述
NUBes语料库是专注于西班牙语临床文本中否定与不确定性现象标注的首个大规模公开数据集,由Vicomtech等机构的研究人员于2020年发布。该语料库包含来自匿名健康记录的句子,并标注了否定和不确定性的线索、范围及事件。NUBes的创建填补了西班牙语临床文本处理领域的空白,为自然语言处理技术在医疗领域的应用提供了重要支持。其相关研究成果发表于LREC2020会议,进一步推动了临床文本分析技术的发展。
当前挑战
NUBes语料库在构建过程中面临多重挑战。首先,临床文本中否定与不确定性的标注需要高度的语言学与医学专业知识,标注一致性难以保证。其次,数据匿名化处理要求严格,需在保护患者隐私的同时确保数据的可用性。此外,语料库的规模与多样性限制了模型的泛化能力,尤其是在处理不同医学专科和报告部分时。这些挑战不仅影响了数据集的构建质量,也对后续的自然语言处理任务提出了更高的要求。
常用场景
经典使用场景
NUBes数据集在自然语言处理领域,尤其是临床文本分析中具有重要应用。该数据集主要用于研究西班牙语临床文本中的否定和不确定性现象,为开发自动识别和标注这些语言现象的算法提供了丰富的语料资源。通过NUBes,研究人员可以训练和评估模型,以识别临床文本中的否定和不确定性表达,进而提升临床文本的自动化处理能力。
解决学术问题
NUBes数据集解决了临床文本分析中的关键问题,特别是西班牙语文本中否定和不确定性表达的自动识别与标注。该数据集为研究人员提供了大规模的标注数据,支持开发更精确的自然语言处理模型,从而提升临床文本的理解和分析能力。此外,NUBes还为跨语言研究提供了重要参考,推动了多语言临床文本处理技术的发展。
衍生相关工作
NUBes数据集衍生了一系列相关研究,特别是在临床文本的否定和不确定性标注领域。基于NUBes的研究工作包括开发新的标注工具、改进现有的自然语言处理模型,以及探索跨语言的否定和不确定性表达模式。此外,NUBes还为其他语言的临床文本标注提供了参考,推动了多语言临床文本处理技术的发展。
以上内容由遇见数据集搜集并总结生成



